論文の概要: Towards Explainable Evaluation Metrics for Natural Language Generation
- arxiv url: http://arxiv.org/abs/2203.11131v1
- Date: Mon, 21 Mar 2022 17:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:11:58.335958
- Title: Towards Explainable Evaluation Metrics for Natural Language Generation
- Title(参考訳): 自然言語生成のための評価指標の解明に向けて
- Authors: Christoph Leiter and Piyawat Lertvittayakumjorn and Marina Fomicheva
and Wei Zhao and Yang Gao and Steffen Eger
- Abstract要約: 重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
- 参考スコア(独自算出の注目度): 36.594817754285984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike classical lexical overlap metrics such as BLEU, most current
evaluation metrics (such as BERTScore or MoverScore) are based on black-box
language models such as BERT or XLM-R. They often achieve strong correlations
with human judgments, but recent research indicates that the lower-quality
classical metrics remain dominant, one of the potential reasons being that
their decision processes are transparent. To foster more widespread acceptance
of the novel high-quality metrics, explainability thus becomes crucial. In this
concept paper, we identify key properties and propose key goals of explainable
machine translation evaluation metrics. We also provide a synthesizing overview
over recent approaches for explainable machine translation metrics and discuss
how they relate to those goals and properties. Further, we conduct own novel
experiments, which (among others) find that current adversarial NLP techniques
are unsuitable for automatically identifying limitations of high-quality
black-box evaluation metrics, as they are not meaning-preserving. Finally, we
provide a vision of future approaches to explainable evaluation metrics and
their evaluation. We hope that our work can help catalyze and guide future
research on explainable evaluation metrics and, mediately, also contribute to
better and more transparent text generation systems.
- Abstract(参考訳): BLEUのような古典的な語彙重なりのメトリクスとは異なり、BERTScoreやMoverScoreのような現在の評価指標はBERTやXLM-Rのようなブラックボックス言語モデルに基づいている。
彼らはしばしば人間の判断と強い相関関係を持つが、最近の研究は、低品質の古典的指標が依然として支配的であることを示している。
新たな高品質なメトリクスをより広く受け入れるためには、説明可能性が非常に重要です。
本稿では,重要な特性を特定し,説明可能な機械翻訳評価指標の重要な目標を提案する。
また,近年の機械翻訳の手法について概説し,それらの目的や特性との関連性について論じる。
さらに,近年のnlp技術は,意味保存性に欠けるため,品質の高いブラックボックス評価指標の限界を自動的に識別するには不適当であることを示す,独自の新しい実験を行った。
最後に、評価指標とその評価を説明するための将来のアプローチのビジョンを提供する。
我々の研究は、説明可能な評価指標に関する将来の研究を触媒化し、ガイドし、中途半端に、より良い、より透明なテキスト生成システムに貢献することを期待しています。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文 参考訳(メタデータ) (2024-03-13T07:49:50Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Towards Explainable Evaluation Metrics for Machine Translation [32.69015745456696]
説明可能な機械翻訳メトリクスの重要な目的だけでなく、重要な特性も識別する。
本稿では,ChatGPT や GPT4 などの生成モデルに基づく説明可能なメトリクスに対する最新の最先端手法について論じる。
論文 参考訳(メタデータ) (2023-06-22T17:07:57Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。