論文の概要: On the Blind Spots of Model-Based Evaluation Metrics for Text Generation
- arxiv url: http://arxiv.org/abs/2212.10020v3
- Date: Thu, 18 May 2023 20:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 19:25:38.187494
- Title: On the Blind Spots of Model-Based Evaluation Metrics for Text Generation
- Title(参考訳): テキスト生成のためのモデルベース評価指標の盲点について
- Authors: Tianxing He, Jingyu Zhang, Tianle Wang, Sachin Kumar, Kyunghyun Cho,
James Glass, Yulia Tsvetkov
- Abstract要約: テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
- 参考スコア(独自算出の注目度): 79.01422521024834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore a useful but often neglected methodology for
robustness analysis of text generation evaluation metrics: stress tests with
synthetic data. Basically, we design and synthesize a wide range of potential
errors and check whether they result in a commensurate drop in the metric
scores. We examine a range of recently proposed evaluation metrics based on
pretrained language models, for the tasks of open-ended generation,
translation, and summarization. Our experiments reveal interesting
insensitivities, biases, or even loopholes in existing metrics. For example, we
find that BERTScore is confused by truncation errors in summarization, and
MAUVE (built on top of GPT-2) is insensitive to errors at the beginning or
middle of generations. Further, we investigate the reasons behind these blind
spots and suggest practical workarounds for a more reliable evaluation of text
generation. We have released our code and data at
https://github.com/cloudygoose/blindspot_nlg.
- Abstract(参考訳): 本研究では,テキスト生成評価指標のロバスト性分析のための有用だがしばしば無視される手法,すなわち合成データを用いたストレステストについて検討する。
基本的に、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
本稿では,最近提案されている言語モデルに基づく評価指標について,オープンエンド生成,翻訳,要約の課題について検討する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
例えば、BERTScoreは、要約におけるトランケーションエラーと混同されており、MAUVE(GPT-2上に構築されている)は、世代の初期または中期のエラーに敏感である。
さらに,これらの盲点の背後にある理由を調査し,テキスト生成の信頼性を高めるための実践的回避策を提案する。
私たちはコードとデータをhttps://github.com/cloudygoose/blindspot_nlgでリリースした。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - SUT: Active Defects Probing for Transcompiler Models [24.01532199512389]
我々は、プログラミング言語翻訳のための新しいメトリクスを導入し、これらのメトリクスは基本的な構文エラーに対処する。
実験によると、ChatGPTのような強力なモデルでさえ、これらの基本的な単体テストで間違いを犯している。
論文 参考訳(メタデータ) (2023-10-22T07:16:02Z) - TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks [44.801746603656504]
TIGERScore は textbfInstruction textbfGuidance に従って textbfExplainable および textbfReference-free 評価を行う。
我々のメトリクスは、厳密にキュレートされた命令チューニングデータセット MetricInstruct に基づいて訓練された LLaMA-2 に基づいている。
論文 参考訳(メタデータ) (2023-10-01T18:01:51Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation [92.42032403795879]
UNIONは、オープンなストーリー生成を評価するための、学習可能な未参照メトリックである。
人書きストーリーとネガティブなサンプルを区別し、ネガティブなストーリーの摂動を回復するように訓練されている。
2つのストーリーデータセットの実験では、UNIONが生成されたストーリーの品質を評価するための信頼性の高い尺度であることが示されている。
論文 参考訳(メタデータ) (2020-09-16T11:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。