論文の概要: An Automatic Evaluation of the WMT22 General Machine Translation Task
- arxiv url: http://arxiv.org/abs/2209.14172v1
- Date: Wed, 28 Sep 2022 15:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:55:44.545933
- Title: An Automatic Evaluation of the WMT22 General Machine Translation Task
- Title(参考訳): WMT22汎用機械翻訳タスクの自動評価
- Authors: Benjamin Marie
- Abstract要約: 総計で185のシステムで21の翻訳方向を評価している。
これは現在最先端の機械翻訳システムの限界を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 9.442139459221785
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This report presents an automatic evaluation of the general machine
translation task of the Seventh Conference on Machine Translation (WMT22). It
evaluates a total of 185 systems for 21 translation directions including
high-resource to low-resource language pairs and from closely related to
distant languages. This large-scale automatic evaluation highlights some of the
current limits of state-of-the-art machine translation systems. It also shows
how automatic metrics, namely chrF, BLEU, and COMET, can complement themselves
to mitigate their own limits in terms of interpretability and accuracy.
- Abstract(参考訳): 本報告では,第7回機械翻訳会議(WMT22)の一般機械翻訳タスクを自動評価する。
高いリソースから低リソースの言語ペアを含む21の翻訳方向と、遠方の言語と密接に関連した185のシステムを評価している。
この大規模な自動評価は、最先端機械翻訳システムの現在の限界を強調している。
また、chrf、bleu、cometといった自動メトリクスが、解釈可能性と正確性の観点から自身の限界を緩和するためにどのように補完できるかを示す。
関連論文リスト
- Can ChatGPT Rival Neural Machine Translation? A Comparative Study [0.7856362837294112]
本稿では,ChatGPTで表される大規模言語モデルの,中国語の外交文を英語に翻訳するメインストリームのニューラルネットワーク翻訳(NMT)エンジンと比較して評価する。
本研究では,ChatGPT と NMT エンジンの翻訳品質を 4 つの自動測定値で測定し,エラータイポロジーと6 つの解析ルーリックに基づいて人的評価を行った。
論文 参考訳(メタデータ) (2024-01-10T14:20:33Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Evaluating the Efficacy of Length-Controllable Machine Translation [38.672519854291174]
この研究は、長さ制御可能な機械翻訳タスクの自動メトリクスを体系的に評価する最初の試みである。
我々は、2つの翻訳方向の厳密な人間評価を行い、18の要約または翻訳評価指標を評価した。
BLEURT と COMET は人間の評価と最も高い相関関係を持ち,長さ制御可能な機械翻訳の評価指標として最も適している。
論文 参考訳(メタデータ) (2023-05-03T17:50:33Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - QEMind: Alibaba's Submission to the WMT21 Quality Estimation Shared Task [24.668012925628968]
我々は、WMT 2021 QE共有タスクに提出する。
テキストQEMindというQEシステムを構築するための翻訳の不確実性を評価するために有用な機能をいくつか提案する。
我々は、WMT 2020のダイレクトアセスメントQEタスクにおいて、我々の多言語システムが最高のシステムより優れていることを示す。
論文 参考訳(メタデータ) (2021-12-30T02:27:29Z) - Multilingual Machine Translation Systems from Microsoft for WMT21 Shared
Task [95.06453182273027]
本報告では、大規模多言語機械翻訳におけるWMT21共有タスクのためのMicrosoftの機械翻訳システムについて述べる。
共有タスクへのモデル提出はDeltaLMnotefooturlhttps://aka.ms/deltalmで行われました。
最終提出は自動評価基準で3トラックにランクインした。
論文 参考訳(メタデータ) (2021-11-03T09:16:17Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。