論文の概要: Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation
- arxiv url: http://arxiv.org/abs/2503.08327v1
- Date: Tue, 11 Mar 2025 11:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:58.120291
- Title: Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation
- Title(参考訳): ミントにチョコレートを加える:機械翻訳におけるメトリクス干渉の軽減
- Authors: José Pombal, Nuno M. Guerreiro, Ricardo Rei, André F. T. Martins,
- Abstract要約: ミントは、実践者がシステムのパフォーマンスに対して過度に最適化されていることを誤解させる可能性がある。
我々は、Mint下でより信頼性の高い評価方法であるMintAdjustを提案する。
WMT24 MT のタスクテストセットでは、MintAdjust は最先端のメトリクスよりも正確に翻訳とシステムをランク付けしている。
- 参考スコア(独自算出の注目度): 24.481028155002523
- License:
- Abstract: As automatic metrics become increasingly stronger and widely adopted, the risk of unintentionally "gaming the metric" during model development rises. This issue is caused by metric interference (Mint), i.e., the use of the same or related metrics for both model tuning and evaluation. Mint can misguide practitioners into being overoptimistic about the performance of their systems: as system outputs become a function of the interfering metric, their estimated quality loses correlation with human judgments. In this work, we analyze two common cases of Mint in machine translation-related tasks: filtering of training data, and decoding with quality signals. Importantly, we find that Mint strongly distorts instance-level metric scores, even when metrics are not directly optimized for -- questioning the common strategy of leveraging a different, yet related metric for evaluation that is not used for tuning. To address this problem, we propose MintAdjust, a method for more reliable evaluation under Mint. On the WMT24 MT shared task test set, MintAdjust ranks translations and systems more accurately than state-of-the-art-metrics across a majority of language pairs, especially for high-quality systems. Furthermore, MintAdjust outperforms AutoRank, the ensembling method used by the organizers.
- Abstract(参考訳): 自動メトリクスがますます強くなり、広く採用されるようになると、モデル開発中に意図しない"メトリクスのゲーミング"のリスクが高まる。
この問題は、計量干渉(Mint)、すなわちモデルチューニングと評価の両方に同じまたは関連するメトリクスを使用することによって引き起こされる。
システムアウトプットが干渉計量の関数となると、その推定品質は人間の判断と相関を失う。
本研究では、学習データのフィルタリングと品質信号による復号化という、機械翻訳関連タスクにおけるMintの2つの一般的なケースを分析する。
重要なことは、Mintがインスタンスレベルのメトリクススコアを強く歪めていることです -- メトリクスが直接最適化されていない場合でも -- チューニングに使用されていない評価のために、異なるが関連するメトリクスを活用するという一般的な戦略に疑問を呈しています。
この問題に対処するため,Mint を用いたより信頼性の高い評価手法 MintAdjust を提案する。
WMT24 MT のタスクテストセットでは、MintAdjust は言語ペアの大部分、特に高品質なシステムにおいて、最先端のメトリクスよりも正確に翻訳とシステムをランク付けしている。
さらに、MintAdjustは、オーガナイザが使用するアンサンブルメソッドであるAutoRankよりも優れています。
関連論文リスト
- Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文 参考訳(メタデータ) (2024-10-07T16:42:10Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Ties Matter: Meta-Evaluating Modern Metrics with Pairwise Accuracy and
Tie Calibration [31.082944145354293]
Kendall の tau は機械翻訳(MT)評価のメタ評価によく使われ、個々の翻訳を評価する。
既存の変種は、関係の扱いから生じる弱点があり、いくつかの状況ではゲーム化も可能であることを示す。
そこで本稿では,関係を正確に予測するためのメトリクスクレジットを提供するペアワイズ精度バージョンと,相関を自動で評価する階層校正手順を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:54:57Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。