論文の概要: COMET-poly: Machine Translation Metric Grounded in Other Candidates
- arxiv url: http://arxiv.org/abs/2508.18549v1
- Date: Mon, 25 Aug 2025 22:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.622229
- Title: COMET-poly: Machine Translation Metric Grounded in Other Candidates
- Title(参考訳): COMET-poly:他の候補の機械翻訳基準
- Authors: Maike Züfle, Vilém Zouhar, Tu Anh Dinh, Felipe Maia Polo, Jan Niehues, Mrinmaya Sachan,
- Abstract要約: 単一翻訳以外の追加情報を含む2つの自動メトリクスを提案する。
COMET-polycandは、同じソース文の代替翻訳を使用して、手元の翻訳と比較し、対比する。
COMET-polycandに1つの追加翻訳を含めると、セグメントレベルのメートル法性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 63.82506348745169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated metrics for machine translation attempt to replicate human judgment. Unlike humans, who often assess a translation in the context of multiple alternatives, these metrics typically consider only the source sentence and a single translation. This discrepancy in the evaluation setup may negatively impact the performance of automated metrics. We propose two automated metrics that incorporate additional information beyond the single translation. COMET-polycand uses alternative translations of the same source sentence to compare and contrast with the translation at hand, thereby providing a more informed assessment of its quality. COMET-polyic, inspired by retrieval-based in-context learning, takes in translations of similar source texts along with their human-labeled quality scores to guide the evaluation. We find that including a single additional translation in COMET-polycand improves the segment-level metric performance (0.079 to 0.118 Kendall's tau-b correlation), with further gains when more translations are added. Incorporating retrieved examples in COMET-polyic yields similar improvements (0.079 to 0.116 Kendall's tau-b correlation). We release our models publicly.
- Abstract(参考訳): 機械翻訳のための自動メトリクスは、人間の判断を再現しようとする。
複数の選択肢の文脈で翻訳を評価する人間とは異なり、これらの指標は典型的には原文と1つの翻訳のみを考慮する。
評価設定におけるこの相違は、自動メトリクスのパフォーマンスに悪影響を及ぼす可能性がある。
単一翻訳以外の追加情報を含む2つの自動メトリクスを提案する。
COMET-polycandは、同じソース文の代替翻訳を使用して、手前の翻訳と比較し、比較する。
COMET-polyicは、検索ベースのインコンテキスト学習にインスパイアされた、類似したソーステキストの翻訳と、人間のラベル付き品質スコアを使って評価を導く。
COMET-polycandの1つの追加翻訳を含めると、セグメントレベルのメートル法性能(0.079から0.118KendallのTau-b相関)が向上し、より多くの翻訳が加えられるとさらに向上することがわかった。
COMET-ポリイドで得られた例を組み込むと、同様の改善(0.079から0.116KendallのTau-b相関)がもたらされる。
モデルを公開しています。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Textual Similarity as a Key Metric in Machine Translation Quality Estimation [27.152245569974678]
機械翻訳(MT)品質評価(QE)は、参照テキストなしで翻訳信頼性を評価する。
本研究では、文変換器とコサイン類似度を用いて意味的近接度を測定することにより、QEの新しい指標として「テキスト類似性」を導入する。
論文 参考訳(メタデータ) (2024-06-11T16:48:17Z) - Robustness Tests for Automatic Machine Translation Metrics with
Adversarial Attacks [39.86206454559138]
我々は、BERTScore、BLEURT、COMETという3つの一般的な機械翻訳メトリクスに対する単語レベルおよび文字レベルの攻撃実験を行った。
我々の人間実験は、自動的なメトリクスが逆向きに劣化した翻訳を過小評価する傾向があることを実証した。
我々は、より堅牢なメートル法開発を動機付ける脆さのパターンを特定する。
論文 参考訳(メタデータ) (2023-11-01T13:14:23Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - NMTScore: A Multilingual Analysis of Translation-based Text Similarity
Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。
文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。
措置は人間の判断と相対的に高い相関を示す。
論文 参考訳(メタデータ) (2022-04-28T17:57:17Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。