論文の概要: Minimum Bayes Risk Decoding with Neural Metrics of Translation Quality
- arxiv url: http://arxiv.org/abs/2111.09388v1
- Date: Wed, 17 Nov 2021 20:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-20 01:01:30.313472
- Title: Minimum Bayes Risk Decoding with Neural Metrics of Translation Quality
- Title(参考訳): 翻訳品質のニューラルメトリックスを用いた最小ベイズリスク復号
- Authors: Markus Freitag, David Grangier, Qijun Tan, Bowen Liang
- Abstract要約: この作業は、翻訳品質の多様な自動メトリクスを最適化するために、最小ベイズリスクデコーディングを適用します。
実験により、神経翻訳モデルと神経基準に基づく計量であるBLEURTを組み合わせることで、自動評価と人的評価が大幅に改善されることが示されている。
- 参考スコア(独自算出の注目度): 16.838064121696274
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work applies Minimum Bayes Risk (MBR) decoding to optimize diverse
automated metrics of translation quality. Automatic metrics in machine
translation have made tremendous progress recently. In particular, neural
metrics, fine-tuned on human ratings (e.g. BLEURT, or COMET) are outperforming
surface metrics in terms of correlations to human judgements. Our experiments
show that the combination of a neural translation model with a neural
reference-based metric, BLEURT, results in significant improvement in automatic
and human evaluations. This improvement is obtained with translations different
from classical beam-search output: these translations have much lower
likelihood and are less favored by surface metrics like BLEU.
- Abstract(参考訳): この作業は、翻訳品質の多様な自動メトリクスを最適化するために、最小ベイズリスク(mbr)デコードを適用する。
機械翻訳における自動メトリクスは最近大きな進歩を遂げている。
特に、人間の評価(BLEURTやCOMETなど)を微調整した神経メトリクスは、人間の判断に相関して表面メトリクスよりも優れています。
実験の結果,ニューラル翻訳モデルとニューラルレファレンスに基づくメトリクスBLEURTの組み合わせにより,自動評価と人的評価の大幅な改善が得られた。
この改良は、古典的なビームサーチの出力とは異なる翻訳によって得られる:これらの翻訳はずっと低い可能性を持ち、BLEUのような表面測度にはあまり好まれない。
関連論文リスト
- An Empirical Study on the Robustness of Massively Multilingual Neural Machine Translation [40.08063412966712]
多言語多言語ニューラルマシン翻訳(MMNMT)は低リソース言語の翻訳品質を高めることが証明されている。
インドネシア・中国語翻訳のためのロバストネス評価ベンチマークデータセットを作成する。
このデータセットは、異なるサイズの4つのNLLB-200モデルを使用して、自動的に中国語に翻訳される。
論文 参考訳(メタデータ) (2024-05-13T12:01:54Z) - Human Evaluation of English--Irish Transformer-Based NMT [2.648836772989769]
ベストパフォーマンスのTransformerシステムは、RNNベースのモデルと比較して精度と誤差を著しく低減する。
Google Translateに対してベンチマークを行ったところ、我々の翻訳エンジンは大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T11:45:46Z) - Convergences and Divergences between Automatic Assessment and Human Evaluation: Insights from Comparing ChatGPT-Generated Translation and Neural Machine Translation [1.6982207802596105]
本研究では,自動計測と人的評価の収束と相違について検討する。
自動評価を行うには,DQF-MQMのエラータイプと6つのルーリックを人間の評価に組み込んだ4つの自動計測手法を用いる。
その結果、高度な翻訳ツールの性能を評価する上で、人間の判断が不可欠であることが示された。
論文 参考訳(メタデータ) (2024-01-10T14:20:33Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - The Inside Story: Towards Better Understanding of Machine Translation
Neural Evaluation Metrics [8.432864879027724]
我々は、いくつかの神経説明可能性法を開発し比較し、最先端の微調整ニューラルネットワークメトリクスの解釈の有効性を実証する。
本研究は,これらのメトリクスが,翻訳誤りに直接起因するトークンレベルの情報を活用することを明らかにした。
論文 参考訳(メタデータ) (2023-05-19T16:42:17Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Identifying Weaknesses in Machine Translation Metrics Through Minimum
Bayes Risk Decoding: A Case Study for COMET [42.77140426679383]
サンプルに基づく最小ベイズリスク復号法を用いて,そのような弱点を探索,定量化できることを示す。
さらに、これらのバイアスは、単に追加の合成データでトレーニングすることで完全に除去できないことを示す。
論文 参考訳(メタデータ) (2022-02-10T17:07:32Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。