Fugu-MT 論文翻訳(概要): Trained MT Metrics Learn to Cope with Machine-translated References

論文の概要: Trained MT Metrics Learn to Cope with Machine-translated References

arxiv url: http://arxiv.org/abs/2312.00536v1
Date: Fri, 1 Dec 2023 12:15:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 14:42:28.205509
Title: Trained MT Metrics Learn to Cope with Machine-translated References
Title（参考訳）: 機械翻訳参照を用いたMTメトリクスの学習
Authors: Jannis Vamvas, Tobias Domhan, Sony Trenous, Rico Sennrich and Eva Hasler
Abstract要約: 機械翻訳参照に対してPrism+FTがより堅牢になることを示す。これは、計量トレーニングの効果が、人間の判断との全体的な相関を改善する意図的な効果を超えることを示唆している。
参考スコア（独自算出の注目度）: 47.00411750716812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural metrics trained on human evaluations of MT tend to correlate well with human judgments, but their behavior is not fully understood. In this paper, we perform a controlled experiment and compare a baseline metric that has not been trained on human evaluations (Prism) to a trained version of the same metric (Prism+FT). Surprisingly, we find that Prism+FT becomes more robust to machine-translated references, which are a notorious problem in MT evaluation. This suggests that the effects of metric training go beyond the intended effect of improving overall correlation with human judgments.
Abstract（参考訳）: MTの人的評価に基づいて訓練された神経メトリクスは、人間の判断とよく相関する傾向にあるが、その振る舞いは完全には理解されていない。本稿では,人間の評価(Prism)に基づいて訓練されていない基準指標と,同じ指標のトレーニング版(Prism+FT)を比較した。驚くべきことに、Prism+FTは機械翻訳参照に対してより堅牢になり、MT評価において悪名高い問題である。これは、メトリックトレーニングの効果が、人間の判断との全体的な相関を改善する意図的な効果を超えることを示唆している。

関連論文リスト

Has Machine Translation Evaluation Achieved Human Parity? The Human Reference and the Limits of Progress [43.09028349076039]
機械翻訳(MT)評価では、人的判断との一致に基づいて計量性能を評価する。我々はMTメタ評価,すなわちMTメトリクスの能力の評価に,人間のベースラインを取り入れた。以上の結果から,ヒトのアノテータは自動測定値よりも一貫して優れていないことが示唆された。
論文参考訳（メタデータ） (2025-06-24T12:35:00Z)
An Analysis on Automated Metrics for Evaluating Japanese-English Chat Translation [0.0]
チャット翻訳におけるNMTモデルのランク付けには、どのモデルが他のモデルより優れているかを判断する上で、すべての指標が一貫したように見える。一方、ニューラルベースメトリクスは従来のメトリクスよりも優れており、COMETはチャット翻訳における人間の注釈付きスコアとの相関が最も高い。
論文参考訳（メタデータ） (2024-12-24T05:54:40Z)
Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文参考訳（メタデータ） (2024-10-07T16:42:10Z)
Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文参考訳（メタデータ） (2024-08-25T13:29:34Z)
Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文参考訳（メタデータ） (2024-07-03T17:04:17Z)
MT-Ranker: Reference-free machine translation evaluation by inter-system ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。 MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文参考訳（メタデータ） (2024-01-30T15:30:03Z)
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。 BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文参考訳（メタデータ） (2023-07-06T16:59:30Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
MT Metrics Correlate with Human Ratings of Simultaneous Speech Translation [10.132491257235024]
本研究では,CR(Continuous Ratings)とオフライン機械翻訳評価指標の相関分析を行った。本研究は,オフラインのメトリクスがCRとよく相関していることを明らかにし,同時に機械翻訳を評価するために確実に使用できることを示した。 SSTの現在の品質レベルを考えると、これらの指標はCRのプロキシとして利用することができ、大規模な人的評価の必要性を軽減することができると結論付けている。
論文参考訳（メタデータ） (2022-11-16T03:03:56Z)
Difficulty-Aware Machine Translation Evaluation [19.973201669851626]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文参考訳（メタデータ） (2021-07-30T02:45:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。