論文の概要: Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics
- arxiv url: http://arxiv.org/abs/2410.05183v1
- Date: Mon, 7 Oct 2024 16:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:49:12.248152
- Title: Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics
- Title(参考訳): 相関を超えて:機械翻訳メトリクスの解釈可能な評価
- Authors: Stefano Perrella, Lorenzo Proietti, Pere-Lluís Huguet Cabot, Edoardo Barba, Roberto Navigli,
- Abstract要約: 本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
- 参考スコア(独自算出の注目度): 46.71836180414362
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine Translation (MT) evaluation metrics assess translation quality automatically. Recently, researchers have employed MT metrics for various new use cases, such as data filtering and translation re-ranking. However, most MT metrics return assessments as scalar scores that are difficult to interpret, posing a challenge to making informed design choices. Moreover, MT metrics' capabilities have historically been evaluated using correlation with human judgment, which, despite its efficacy, falls short of providing intuitive insights into metric performance, especially in terms of new metric use cases. To address these issues, we introduce an interpretable evaluation framework for MT metrics. Within this framework, we evaluate metrics in two scenarios that serve as proxies for the data filtering and translation re-ranking use cases. Furthermore, by measuring the performance of MT metrics using Precision, Recall, and F-score, we offer clearer insights into their capabilities than correlation with human judgments. Finally, we raise concerns regarding the reliability of manually curated data following the Direct Assessments+Scalar Quality Metrics (DA+SQM) guidelines, reporting a notably low agreement with Multidimensional Quality Metrics (MQM) annotations.
- Abstract(参考訳): 機械翻訳(MT)評価指標は自動的に翻訳品質を評価する。
近年、データフィルタリングや翻訳の再ランク付けなど、さまざまな新しいユースケースにMTメトリクスが採用されている。
しかし、ほとんどのMTメトリクスは、解釈が難しいスカラースコアとして評価を返却し、インフォームドデザインの選択に挑戦する。
さらに、MTメトリクスの能力は、人間の判断と相関して歴史的に評価されてきたが、その有効性にもかかわらず、特に新しいメートル法ユースケースの観点から、メートル法のパフォーマンスに関する直感的な洞察を与えていない。
これらの問題に対処するために、MTメトリクスの解釈可能な評価フレームワークを導入する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
さらに、精度、リコール、Fスコアを用いてMT測定値のパフォーマンスを測定することにより、人間の判断と相関するよりも、その能力に対するより明確な洞察を提供する。
最後に、直接評価+Scalar Quality Metrics(DA+SQM)ガイドラインに従って、手作業によるキュレートデータの信頼性に関する懸念を提起し、特にMultidimensional Quality Metrics(MQM)アノテーションとの合意が低いことを報告した。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文 参考訳(メタデータ) (2024-03-13T07:49:50Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - MT Metrics Correlate with Human Ratings of Simultaneous Speech
Translation [10.132491257235024]
本研究では,CR(Continuous Ratings)とオフライン機械翻訳評価指標の相関分析を行った。
本研究は,オフラインのメトリクスがCRとよく相関していることを明らかにし,同時に機械翻訳を評価するために確実に使用できることを示した。
SSTの現在の品質レベルを考えると、これらの指標はCRのプロキシとして利用することができ、大規模な人的評価の必要性を軽減することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-16T03:03:56Z) - ACES: Translation Accuracy Challenge Sets for Evaluating Machine
Translation Metrics [2.48769664485308]
機械翻訳(MT)メトリクスは、毎年人間の判断との相関を改善している。
MTにおける精度誤差に直面する際の計量挙動について検討することが重要である。
我々は、単語/文字レベルでの単純な摂動から、談話や実世界の知識に基づくより複雑なエラーまで、68の現象からなる翻訳精度挑戦セットであるACESをキュレートする。
論文 参考訳(メタデータ) (2022-10-27T16:59:02Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。