論文の概要: Uncertainty-Aware Machine Translation Evaluation
- arxiv url: http://arxiv.org/abs/2109.06352v1
- Date: Mon, 13 Sep 2021 22:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:53:34.899450
- Title: Uncertainty-Aware Machine Translation Evaluation
- Title(参考訳): 不確実性を考慮した機械翻訳評価
- Authors: Taisiya Glushkova, Chrysoula Zerva, Ricardo Rei, Andr\'e F. T. Martins
- Abstract要約: 我々は,不確実性を考慮したMT評価を導入し,予測品質の信頼性を分析した。
QT21データセットとWMT20メトリクスタスクから,複数の言語ペア間での不確実性を考慮したMT評価手法の性能を比較した。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several neural-based metrics have been recently proposed to evaluate machine
translation quality. However, all of them resort to point estimates, which
provide limited information at segment level. This is made worse as they are
trained on noisy, biased and scarce human judgements, often resulting in
unreliable quality predictions. In this paper, we introduce uncertainty-aware
MT evaluation and analyze the trustworthiness of the predicted quality. We
combine the COMET framework with two uncertainty estimation methods, Monte
Carlo dropout and deep ensembles, to obtain quality scores along with
confidence intervals. We compare the performance of our uncertainty-aware MT
evaluation methods across multiple language pairs from the QT21 dataset and the
WMT20 metrics task, augmented with MQM annotations. We experiment with varying
numbers of references and further discuss the usefulness of uncertainty-aware
quality estimation (without references) to flag possibly critical translation
mistakes.
- Abstract(参考訳): 機械翻訳の品質を評価するために、最近いくつかのニューラルベースメトリクスが提案されている。
しかし、これらはすべて、セグメントレベルで限られた情報を提供する点推定を利用する。
これは、ノイズ、バイアス、そして人間の判断の不足で訓練され、しばしば信頼性の低い品質予測をもたらすため、悪化する。
本稿では,不確実性を考慮したMT評価を導入し,予測品質の信頼性を解析する。
COMETフレームワークとモンテカルロのドロップアウトとディープアンサンブルの2つの不確実性推定手法を組み合わせることで,信頼区間とともに品質スコアを得る。
MQMアノテーションを付加したQT21データセットとWMT20メトリクスタスクから,複数の言語ペアを対象とした不確実性を考慮したMT評価手法の性能を比較した。
様々な基準を用いて実験を行い,不確実性を考慮した品質評価(参照なし)の有用性について検討した。
関連論文リスト
- Comparing the quality of neural network uncertainty estimates for
classification problems [0.0]
深層学習(DL)モデルに対する不確実性定量化(UQ)手法は,本研究で注目されている。
我々は,信頼区間の品質を評価するために,頻繁な区間範囲と区間幅の統計的手法を用いる。
本稿では、これらの異なるUQ for DL法をハイパースペクトル画像目標検出問題に適用し、異なる手法の結果の不整合を示す。
論文 参考訳(メタデータ) (2023-08-11T01:55:14Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in
Large Language Models [61.25124893688374]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Understanding and Mitigating the Uncertainty in Zero-Shot Translation [66.49354195238789]
ゼロショット翻訳の不確実性の観点から、オフターゲット問題を理解し、緩和することを目的としている。
翻訳出力とモデル信頼度を慎重に調べることで、ターゲット外問題の原因となる2つの不確実性を特定する。
そこで本研究では,モデルトレーニングのためのトレーニングデータを認知するための2つの軽量かつ補完的なアプローチを提案し,推論におけるオフターゲット言語の語彙を隠蔽する。
論文 参考訳(メタデータ) (2022-05-20T10:29:46Z) - Better Uncertainty Quantification for Machine Translation Evaluation [17.36759906285316]
我々は、新しい異種回帰、発散最小化、および直接不確実性予測目標を用いてCOMETメトリックを訓練する。
実験の結果、WMT20とWMT21のメトリクスタスクデータセットが改善され、計算コストが大幅に削減された。
論文 参考訳(メタデータ) (2022-04-13T17:49:25Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。
近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。
第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文 参考訳(メタデータ) (2021-09-22T17:32:18Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。