論文の概要: Towards Explainable Evaluation Metrics for Machine Translation
- arxiv url: http://arxiv.org/abs/2306.13041v2
- Date: Sun, 17 Nov 2024 14:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:39.219493
- Title: Towards Explainable Evaluation Metrics for Machine Translation
- Title(参考訳): 機械翻訳のための説明可能な評価基準に向けて
- Authors: Christoph Leiter, Piyawat Lertvittayakumjorn, Marina Fomicheva, Wei Zhao, Yang Gao, Steffen Eger,
- Abstract要約: 説明可能な機械翻訳メトリクスの重要な目的だけでなく、重要な特性も識別する。
本稿では,ChatGPT や GPT4 などの生成モデルに基づく説明可能なメトリクスに対する最新の最先端手法について論じる。
- 参考スコア(独自算出の注目度): 32.69015745456696
- License:
- Abstract: Unlike classical lexical overlap metrics such as BLEU, most current evaluation metrics for machine translation (for example, COMET or BERTScore) are based on black-box large language models. They often achieve strong correlations with human judgments, but recent research indicates that the lower-quality classical metrics remain dominant, one of the potential reasons being that their decision processes are more transparent. To foster more widespread acceptance of novel high-quality metrics, explainability thus becomes crucial. In this concept paper, we identify key properties as well as key goals of explainable machine translation metrics and provide a comprehensive synthesis of recent techniques, relating them to our established goals and properties. In this context, we also discuss the latest state-of-the-art approaches to explainable metrics based on generative models such as ChatGPT and GPT4. Finally, we contribute a vision of next-generation approaches, including natural language explanations. We hope that our work can help catalyze and guide future research on explainable evaluation metrics and, mediately, also contribute to better and more transparent machine translation systems.
- Abstract(参考訳): BLEUのような古典的な語彙重なりのメトリクスとは異なり、機械翻訳(COMETやBERTScoreなど)の現在の評価基準はブラックボックスの大規模言語モデルに基づいている。
彼らはしばしば人間の判断と強く相関するが、最近の研究は、低品質の古典的指標が支配的であり続けることを示唆している。
新たな高品質なメトリクスの受容を促進するために、説明可能性の重要性が重要になる。
本稿では,機械翻訳における重要な特徴と,機械翻訳のメトリクスを説明するための重要な目標を同定し,最新の手法を包括的に合成し,確立した目標と特性に関連付ける。
この文脈では、ChatGPTやGPT4といった生成モデルに基づく説明可能なメトリクスに対する最新の最先端のアプローチについても論じる。
最後に、自然言語の説明を含む次世代のアプローチのビジョンに貢献する。
私たちの研究が、説明可能な評価指標に関する将来の研究を触媒化し、ガイドし、仲介的に、より優れた透明性のある機械翻訳システムに貢献できることを願っています。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - The Inside Story: Towards Better Understanding of Machine Translation
Neural Evaluation Metrics [8.432864879027724]
我々は、いくつかの神経説明可能性法を開発し比較し、最先端の微調整ニューラルネットワークメトリクスの解釈の有効性を実証する。
本研究は,これらのメトリクスが,翻訳誤りに直接起因するトークンレベルの情報を活用することを明らかにした。
論文 参考訳(メタデータ) (2023-05-19T16:42:17Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z) - Evaluating MT Systems: A Theoretical Framework [0.0]
本稿では,機械翻訳システムの評価のために,異なる自動メトリクスを設計できる理論的枠組みを概説する。
認識の容易さの概念は、共感の適切さと流感の欠如に依存している。
また、音声から音声への翻訳や談話の翻訳など、新しいタイプのMTシステムを評価するためにも使用できる。
論文 参考訳(メタデータ) (2022-02-11T18:05:17Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。