論文の概要: Evaluating the Efficacy of Length-Controllable Machine Translation
- arxiv url: http://arxiv.org/abs/2305.02300v1
- Date: Wed, 3 May 2023 17:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 13:49:12.991663
- Title: Evaluating the Efficacy of Length-Controllable Machine Translation
- Title(参考訳): 長さ制御型機械翻訳の有効性評価
- Authors: Hao Cheng, Meng Zhang, Weixuan Wang, Liangyou Li, Qun Liu and Zhihua
Zhang
- Abstract要約: この研究は、長さ制御可能な機械翻訳タスクの自動メトリクスを体系的に評価する最初の試みである。
我々は、2つの翻訳方向の厳密な人間評価を行い、18の要約または翻訳評価指標を評価した。
BLEURT と COMET は人間の評価と最も高い相関関係を持ち,長さ制御可能な機械翻訳の評価指標として最も適している。
- 参考スコア(独自算出の注目度): 38.672519854291174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Length-controllable machine translation is a type of constrained translation.
It aims to contain the original meaning as much as possible while controlling
the length of the translation. We can use automatic summarization or machine
translation evaluation metrics for length-controllable machine translation, but
this is not necessarily suitable and accurate. This work is the first attempt
to evaluate the automatic metrics for length-controllable machine translation
tasks systematically. We conduct a rigorous human evaluation on two translation
directions and evaluate 18 summarization or translation evaluation metrics. We
find that BLEURT and COMET have the highest correlation with human evaluation
and are most suitable as evaluation metrics for length-controllable machine
translation.
- Abstract(参考訳): 長さ制御可能な機械翻訳は制約翻訳の一種である。
翻訳の長さを制御しながら、本来の意味をできるだけ含むことを目的としている。
自動要約や機械翻訳評価のメトリクスを長さ制御可能な機械翻訳に利用できるが、必ずしも適切で正確ではない。
この研究は、長さ制御可能な機械翻訳タスクの自動メトリクスを体系的に評価する最初の試みである。
2つの翻訳方向について厳密な人間評価を行い、18の要約や翻訳評価指標を評価した。
BLEURT と COMET は人間の評価と高い相関関係を持ち,長さ制御可能な機械翻訳の評価指標として最も適している。
関連論文リスト
- BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - An Automatic Evaluation of the WMT22 General Machine Translation Task [9.442139459221785]
総計で185のシステムで21の翻訳方向を評価している。
これは現在最先端の機械翻訳システムの限界を浮き彫りにしている。
論文 参考訳(メタデータ) (2022-09-28T15:31:57Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Automatic Classification of Human Translation and Machine Translation: A
Study from the Perspective of Lexical Diversity [1.5229257192293197]
機械翻訳と人間の翻訳は、チャンスレベル以上の精度で分類できることを示しています。
機械翻訳の分類精度は人間の翻訳よりもはるかに高い。
論文 参考訳(メタデータ) (2021-05-10T18:55:04Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。