論文の概要: On the Limitations of Reference-Free Evaluations of Generated Text
- arxiv url: http://arxiv.org/abs/2210.12563v1
- Date: Sat, 22 Oct 2022 22:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:16:44.991036
- Title: On the Limitations of Reference-Free Evaluations of Generated Text
- Title(参考訳): 生成テキストの参照フリー評価の限界について
- Authors: Daniel Deutsch and Rotem Dror and Dan Roth
- Abstract要約: 基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
- 参考スコア(独自算出の注目度): 64.81682222169113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is significant interest in developing evaluation metrics which
accurately estimate the quality of generated text without the aid of a
human-written reference text, which can be time consuming and expensive to
collect or entirely unavailable in online applications. However, in this work,
we demonstrate that these reference-free metrics are inherently biased and
limited in their ability to evaluate generated text, and we argue that they
should not be used to measure progress on tasks like machine translation or
summarization. We show how reference-free metrics are equivalent to using one
generation model to evaluate another, which has several limitations: (1) the
metrics can be optimized at test time to find the approximate best-possible
output, (2) they are inherently biased toward models which are more similar to
their own, and (3) they can be biased against higher-quality outputs, including
those written by humans. Therefore, we recommend that reference-free metrics
should be used as diagnostic tools for analyzing and understanding model
behavior instead of measures of how well models perform a task, in which the
goal is to achieve as high of a score as possible.
- Abstract(参考訳): 人間が書いた参照テキストの助けなしに、生成されたテキストの品質を正確に推定する評価メトリクスの開発には大きな関心があり、オンラインアプリケーションで収集するのに時間がかかり、費用がかかる。
しかし、本研究では、これらの参照フリーメトリクスが、本質的に偏りがあり、生成されたテキストを評価する能力に制限があることを実証し、機械翻訳や要約といったタスクの進捗を測定するために使用するべきではないと主張する。
基準フリーなメトリクスが、ある世代モデルと等価であることを示す。これは、(1)そのメトリクスをテスト時に最適化して、近似可能なアウトプットを見つけること、(2)それらが本質的に、より類似したモデルに偏り、(3)人間によって書かれたアウトプットを含む高品質なアウトプットに対して偏りがあることを示す。
そこで我々は,モデルの動作を計測し理解するための診断ツールとして,モデルができる限り高いスコアを達成するための指標ではなく,参照フリーなメトリクスを使用することを推奨する。
関連論文リスト
- What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - CTRLEval: An Unsupervised Reference-Free Metric for Evaluating
Controlled Text Generation [85.03709740727867]
制御されたテキスト生成モデルを評価するために,教師なし参照自由度であるEvalを提案する。
Evalは、事前訓練された言語モデルから生成確率をモデルトレーニングなしで組み立てる。
実験の結果,我々の測定値は他の基準値よりも人間の判断と高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2022-04-02T13:42:49Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。