論文の概要: An Automatic Evaluation of the WMT22 General Machine Translation Task
- arxiv url: http://arxiv.org/abs/2209.14172v1
- Date: Wed, 28 Sep 2022 15:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:55:44.545933
- Title: An Automatic Evaluation of the WMT22 General Machine Translation Task
- Title(参考訳): WMT22汎用機械翻訳タスクの自動評価
- Authors: Benjamin Marie
- Abstract要約: 総計で185のシステムで21の翻訳方向を評価している。
これは現在最先端の機械翻訳システムの限界を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 9.442139459221785
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This report presents an automatic evaluation of the general machine
translation task of the Seventh Conference on Machine Translation (WMT22). It
evaluates a total of 185 systems for 21 translation directions including
high-resource to low-resource language pairs and from closely related to
distant languages. This large-scale automatic evaluation highlights some of the
current limits of state-of-the-art machine translation systems. It also shows
how automatic metrics, namely chrF, BLEU, and COMET, can complement themselves
to mitigate their own limits in terms of interpretability and accuracy.
- Abstract(参考訳): 本報告では,第7回機械翻訳会議(WMT22)の一般機械翻訳タスクを自動評価する。
高いリソースから低リソースの言語ペアを含む21の翻訳方向と、遠方の言語と密接に関連した185のシステムを評価している。
この大規模な自動評価は、最先端機械翻訳システムの現在の限界を強調している。
また、chrf、bleu、cometといった自動メトリクスが、解釈可能性と正確性の観点から自身の限界を緩和するためにどのように補完できるかを示す。
関連論文リスト
- Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine Translation [18.077562738603792]
両世界の最善を生かすアプローチを提案する。
我々はまず,複数の高品質MTシステムによって生成された翻訳について,専門言語学者から文レベルの品質評価を収集する。
次に、この分析を用いて18の言語方向をカバーする18kインスタンスからなる新しいデータセットMT-Prefをキュレートする。
論文 参考訳(メタデータ) (2024-10-10T10:09:54Z) - HW-TSC's Submission to the CCMT 2024 Machine Translation Tasks [12.841065384808733]
我々はバイリンガル機械翻訳タスクとマルチドメイン機械翻訳タスクに参加する。
これら2つの翻訳タスクでは,正規化ドロップアウト,双方向トレーニング,データ多様化,前方翻訳,後方翻訳,交互学習,カリキュラム学習,トランスダクティブアンサンブル学習などの学習戦略を用いる。
論文 参考訳(メタデータ) (2024-09-23T09:20:19Z) - Preliminary WMT24 Ranking of General MT Systems and LLMs [69.82909844246127]
自動メトリクスに基づくWMT24一般MTシステムの序列である。
公式ランキングは人間による評価であり、自動ランキングよりも優れている。
論文 参考訳(メタデータ) (2024-07-29T11:01:17Z) - Convergences and Divergences between Automatic Assessment and Human Evaluation: Insights from Comparing ChatGPT-Generated Translation and Neural Machine Translation [1.6982207802596105]
本研究では,自動計測と人的評価の収束と相違について検討する。
自動評価を行うには,DQF-MQMのエラータイプと6つのルーリックを人間の評価に組み込んだ4つの自動計測手法を用いる。
その結果、高度な翻訳ツールの性能を評価する上で、人間の判断が不可欠であることが示された。
論文 参考訳(メタデータ) (2024-01-10T14:20:33Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Evaluating the Efficacy of Length-Controllable Machine Translation [38.672519854291174]
この研究は、長さ制御可能な機械翻訳タスクの自動メトリクスを体系的に評価する最初の試みである。
我々は、2つの翻訳方向の厳密な人間評価を行い、18の要約または翻訳評価指標を評価した。
BLEURT と COMET は人間の評価と最も高い相関関係を持ち,長さ制御可能な機械翻訳の評価指標として最も適している。
論文 参考訳(メタデータ) (2023-05-03T17:50:33Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - QEMind: Alibaba's Submission to the WMT21 Quality Estimation Shared Task [24.668012925628968]
我々は、WMT 2021 QE共有タスクに提出する。
テキストQEMindというQEシステムを構築するための翻訳の不確実性を評価するために有用な機能をいくつか提案する。
我々は、WMT 2020のダイレクトアセスメントQEタスクにおいて、我々の多言語システムが最高のシステムより優れていることを示す。
論文 参考訳(メタデータ) (2021-12-30T02:27:29Z) - Multilingual Machine Translation Systems from Microsoft for WMT21 Shared
Task [95.06453182273027]
本報告では、大規模多言語機械翻訳におけるWMT21共有タスクのためのMicrosoftの機械翻訳システムについて述べる。
共有タスクへのモデル提出はDeltaLMnotefooturlhttps://aka.ms/deltalmで行われました。
最終提出は自動評価基準で3トラックにランクインした。
論文 参考訳(メタデータ) (2021-11-03T09:16:17Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。