論文の概要: INSTRUCTSCORE: Towards Explainable Text Generation Evaluation with
Automatic Feedback
- arxiv url: http://arxiv.org/abs/2305.14282v1
- Date: Tue, 23 May 2023 17:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:05:19.245568
- Title: INSTRUCTSCORE: Towards Explainable Text Generation Evaluation with
Automatic Feedback
- Title(参考訳): INSTRUCTSCORE: 自動フィードバックによる説明可能なテキスト生成評価を目指して
- Authors: Wenda Xu, Danqing Wang, Liangming Pan, Zhenqiao Song, Markus Freitag,
William Yang Wang, Lei Li
- Abstract要約: テキスト生成のためのオープンソースの説明可能な評価指標であるINSTRUCTSCOREを提案する。
GPT4の明示的な人的指導と暗黙的な知識の両方を活用することで、評価指標を作成するためにLLAMAモデルを微調整する。
WMT22 Zh-En翻訳タスクにおけるINSTRUCTSCOREの評価を行った。
- 参考スコア(独自算出の注目度): 83.15039512250519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of automatic evaluation of text generation made tremendous progress
in the last few years. In particular, since the advent of neural metrics, like
COMET, BLEURT, and SEScore2, the newest generation of metrics show a high
correlation with human judgment. Unfortunately, quality scores generated with
neural metrics are not interpretable, and it is unclear which part of the
generation output is criticized by the metrics. To address this limitation, we
present INSTRUCTSCORE, an open-source, explainable evaluation metric for text
generation. By harnessing both explicit human instruction and the implicit
knowledge of GPT4, we fine-tune a LLAMA model to create an evaluative metric
that can produce a diagnostic report aligned with human judgment. We evaluate
INSTRUCTSCORE on the WMT22 Zh-En translation task, where our 7B model surpasses
other LLM-based baselines, including those based on 175B GPT3. Impressively,
our INSTRUCTSCORE, even without direct supervision from human-rated data,
achieves performance levels on par with state-of-the-art metrics like COMET22,
which was fine-tuned on human ratings.
- Abstract(参考訳): テキスト生成の自動評価の分野は、ここ数年で大きな進歩を遂げた。
特に、COMET、BLEURT、SEScore2のようなニューラルメトリックの出現以来、最新の世代のメトリクスは人間の判断と高い相関関係を示している。
残念ながら、ニューラルメトリックスで生成された品質スコアは解釈不可能であり、生成アウトプットのどの部分がメトリクスによって批判されているかは明らかではない。
この制限に対処するため、テキスト生成のためのオープンソースの説明可能な評価指標であるINSTRUCTSCOREを提案する。
明示的なヒューマンインストラクションとgpt4の暗黙の知識の両方を利用することで、ラマモデルを微調整し、人間の判断と一致した診断レポートを作成できる評価指標を作成する。
我々は、7Bモデルが175B GPT3を含む他のLLMベースラインを超えるWMT22 Zh-En翻訳タスクにおいてINSTRUCTSCOREを評価する。
印象的なことに、私たちのINSTRUCTSCOREは、人間の評価データを直接監督することなく、人間の評価に基づいて微調整されたCOMET22のような最先端のメトリクスと同等のパフォーマンスレベルを達成する。
関連論文リスト
- CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks [44.801746603656504]
TIGERScore は textbfInstruction textbfGuidance に従って textbfExplainable および textbfReference-free 評価を行う。
我々のメトリクスは、厳密にキュレートされた命令チューニングデータセット MetricInstruct に基づいて訓練された LLaMA-2 に基づいている。
論文 参考訳(メタデータ) (2023-10-01T18:01:51Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - CTRLEval: An Unsupervised Reference-Free Metric for Evaluating
Controlled Text Generation [85.03709740727867]
制御されたテキスト生成モデルを評価するために,教師なし参照自由度であるEvalを提案する。
Evalは、事前訓練された言語モデルから生成確率をモデルトレーニングなしで組み立てる。
実験の結果,我々の測定値は他の基準値よりも人間の判断と高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2022-04-02T13:42:49Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。