Fugu-MT 論文翻訳(概要): Uncertainty-Aware Machine Translation Evaluation

論文の概要: Uncertainty-Aware Machine Translation Evaluation

arxiv url: http://arxiv.org/abs/2109.06352v1
Date: Mon, 13 Sep 2021 22:46:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-15 15:53:34.899450
Title: Uncertainty-Aware Machine Translation Evaluation
Title（参考訳）: 不確実性を考慮した機械翻訳評価
Authors: Taisiya Glushkova, Chrysoula Zerva, Ricardo Rei, Andr\'e F. T. Martins
Abstract要約: 我々は,不確実性を考慮したMT評価を導入し,予測品質の信頼性を分析した。 QT21データセットとWMT20メトリクスタスクから,複数の言語ペア間での不確実性を考慮したMT評価手法の性能を比較した。
参考スコア（独自算出の注目度）: 0.716879432974126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several neural-based metrics have been recently proposed to evaluate machine translation quality. However, all of them resort to point estimates, which provide limited information at segment level. This is made worse as they are trained on noisy, biased and scarce human judgements, often resulting in unreliable quality predictions. In this paper, we introduce uncertainty-aware MT evaluation and analyze the trustworthiness of the predicted quality. We combine the COMET framework with two uncertainty estimation methods, Monte Carlo dropout and deep ensembles, to obtain quality scores along with confidence intervals. We compare the performance of our uncertainty-aware MT evaluation methods across multiple language pairs from the QT21 dataset and the WMT20 metrics task, augmented with MQM annotations. We experiment with varying numbers of references and further discuss the usefulness of uncertainty-aware quality estimation (without references) to flag possibly critical translation mistakes.
Abstract（参考訳）: 機械翻訳の品質を評価するために、最近いくつかのニューラルベースメトリクスが提案されている。しかし、これらはすべて、セグメントレベルで限られた情報を提供する点推定を利用する。これは、ノイズ、バイアス、そして人間の判断の不足で訓練され、しばしば信頼性の低い品質予測をもたらすため、悪化する。本稿では,不確実性を考慮したMT評価を導入し,予測品質の信頼性を解析する。 COMETフレームワークとモンテカルロのドロップアウトとディープアンサンブルの2つの不確実性推定手法を組み合わせることで,信頼区間とともに品質スコアを得る。 MQMアノテーションを付加したQT21データセットとWMT20メトリクスタスクから,複数の言語ペアを対象とした不確実性を考慮したMT評価手法の性能を比較した。様々な基準を用いて実験を行い,不確実性を考慮した品質評価(参照なし)の有用性について検討した。

関連論文リスト

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文参考訳（メタデータ） (2024-10-07T16:42:10Z)
Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文参考訳（メタデータ） (2024-08-25T13:29:34Z)
Can Automatic Metrics Assess High-Quality Translations? [28.407966066693334]
現在のメトリクスは、翻訳品質の微妙な違いに敏感であることを示す。この効果は、品質が高く、代替品間のばらつきが低い場合に最も顕著である。 MQMフレームワークを金の標準として使用することにより、現在のメトリクスが人間によってマークされた誤りのない翻訳を識別する能力を体系的にストレステストする。
論文参考訳（メタデータ） (2024-05-28T16:44:02Z)
Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean [7.843029855730508]
1200文のMQM評価ベンチマークを英語と韓国語で作成する。参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。全体として、RemBERTは最も有望なモデルとして現れます。
論文参考訳（メタデータ） (2024-03-19T12:02:38Z)
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文参考訳（メタデータ） (2023-03-24T05:05:03Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Competency-Aware Neural Machine Translation: Can Machine Translation Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。提案手法は品質評価において優れた性能を示すことを示す。
論文参考訳（メタデータ） (2022-11-25T02:39:41Z)
Better Uncertainty Quantification for Machine Translation Evaluation [17.36759906285316]
我々は、新しい異種回帰、発散最小化、および直接不確実性予測目標を用いてCOMETメトリックを訓練する。実験の結果、WMT20とWMT21のメトリクスタスクデータセットが改善され、計算コストが大幅に削減された。
論文参考訳（メタデータ） (2022-04-13T17:49:25Z)
Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文参考訳（メタデータ） (2021-11-15T12:09:08Z)
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文参考訳（メタデータ） (2020-06-11T09:12:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。