論文の概要: Uncertainty-Aware Machine Translation Evaluation
- arxiv url: http://arxiv.org/abs/2109.06352v1
- Date: Mon, 13 Sep 2021 22:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:53:34.899450
- Title: Uncertainty-Aware Machine Translation Evaluation
- Title(参考訳): 不確実性を考慮した機械翻訳評価
- Authors: Taisiya Glushkova, Chrysoula Zerva, Ricardo Rei, Andr\'e F. T. Martins
- Abstract要約: 我々は,不確実性を考慮したMT評価を導入し,予測品質の信頼性を分析した。
QT21データセットとWMT20メトリクスタスクから,複数の言語ペア間での不確実性を考慮したMT評価手法の性能を比較した。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several neural-based metrics have been recently proposed to evaluate machine
translation quality. However, all of them resort to point estimates, which
provide limited information at segment level. This is made worse as they are
trained on noisy, biased and scarce human judgements, often resulting in
unreliable quality predictions. In this paper, we introduce uncertainty-aware
MT evaluation and analyze the trustworthiness of the predicted quality. We
combine the COMET framework with two uncertainty estimation methods, Monte
Carlo dropout and deep ensembles, to obtain quality scores along with
confidence intervals. We compare the performance of our uncertainty-aware MT
evaluation methods across multiple language pairs from the QT21 dataset and the
WMT20 metrics task, augmented with MQM annotations. We experiment with varying
numbers of references and further discuss the usefulness of uncertainty-aware
quality estimation (without references) to flag possibly critical translation
mistakes.
- Abstract(参考訳): 機械翻訳の品質を評価するために、最近いくつかのニューラルベースメトリクスが提案されている。
しかし、これらはすべて、セグメントレベルで限られた情報を提供する点推定を利用する。
これは、ノイズ、バイアス、そして人間の判断の不足で訓練され、しばしば信頼性の低い品質予測をもたらすため、悪化する。
本稿では,不確実性を考慮したMT評価を導入し,予測品質の信頼性を解析する。
COMETフレームワークとモンテカルロのドロップアウトとディープアンサンブルの2つの不確実性推定手法を組み合わせることで,信頼区間とともに品質スコアを得る。
MQMアノテーションを付加したQT21データセットとWMT20メトリクスタスクから,複数の言語ペアを対象とした不確実性を考慮したMT評価手法の性能を比較した。
様々な基準を用いて実験を行い,不確実性を考慮した品質評価(参照なし)の有用性について検討した。
関連論文リスト
- Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文 参考訳(メタデータ) (2024-10-07T16:42:10Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Can Automatic Metrics Assess High-Quality Translations? [28.407966066693334]
現在のメトリクスは、翻訳品質の微妙な違いに敏感であることを示す。
この効果は、品質が高く、代替品間のばらつきが低い場合に最も顕著である。
MQMフレームワークを金の標準として使用することにより、現在のメトリクスが人間によってマークされた誤りのない翻訳を識別する能力を体系的にストレステストする。
論文 参考訳(メタデータ) (2024-05-28T16:44:02Z) - Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean [7.843029855730508]
1200文のMQM評価ベンチマークを英語と韓国語で作成する。
参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。
全体として、RemBERTは最も有望なモデルとして現れます。
論文 参考訳(メタデータ) (2024-03-19T12:02:38Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Better Uncertainty Quantification for Machine Translation Evaluation [17.36759906285316]
我々は、新しい異種回帰、発散最小化、および直接不確実性予測目標を用いてCOMETメトリックを訓練する。
実験の結果、WMT20とWMT21のメトリクスタスクデータセットが改善され、計算コストが大幅に削減された。
論文 参考訳(メタデータ) (2022-04-13T17:49:25Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。