論文の概要: Preliminary Ranking of WMT25 General Machine Translation Systems
- arxiv url: http://arxiv.org/abs/2508.14909v2
- Date: Sun, 24 Aug 2025 08:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.861877
- Title: Preliminary Ranking of WMT25 General Machine Translation Systems
- Title(参考訳): WMT25汎用機械翻訳システムの序列化
- Authors: Tom Kocmi, Eleftherios Avramidis, Rachel Bawden, Ondřej Bojar, Konstantin Dranch, Anton Dvorkovich, Sergey Dukanov, Natalia Fedorova, Mark Fishel, Markus Freitag, Thamme Gowda, Roman Grundkiewicz, Barry Haddow, Marzena Karpinska, Philipp Koehn, Howard Lakougna, Jessica Lundin, Kenton Murray, Masaaki Nagata, Stefano Perrella, Lorenzo Proietti, Martin Popel, Maja Popović, Parker Riley, Mariya Shmatova, Steinþór Steingrímsson, Lisa Yankovskaya, Vilém Zouhar,
- Abstract要約: 本稿では,WMT25汎用機械翻訳共有タスクに送信された機械翻訳システム(MT)の事前ランキングについて述べる。
公式のWMT25ランキングは、人間の評価に基づいており、より信頼性が高く、これらの結果に取って代わる。
- 参考スコア(独自算出の注目度): 58.40564895086757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the preliminary rankings of machine translation (MT) systems submitted to the WMT25 General Machine Translation Shared Task, as determined by automatic evaluation metrics. Because these rankings are derived from automatic evaluation, they may exhibit a bias toward systems that employ re-ranking techniques, such as Quality Estimation or Minimum Bayes Risk decoding. The official WMT25 ranking will be based on human evaluation, which is more reliable and will supersede these results. The official WMT25 ranking will be based on human evaluation, which is more reliable and will supersede these results. The purpose of releasing these findings now is to assist task participants with their system description papers; not to provide final findings.
- Abstract(参考訳): 本稿では,WMT25汎用機械翻訳共有タスクに送信された機械翻訳システム(MT)の事前ランキングについて,自動評価指標を用いて検討する。
これらのランク付けは自動評価に由来するため、品質推定や最小ベイズリスク復号といった再ランクの手法を採用するシステムに対するバイアスを示す可能性がある。
公式のWMT25ランキングは、人間の評価に基づいており、より信頼性が高く、これらの結果に取って代わる。
公式のWMT25ランキングは、人間の評価に基づいており、より信頼性が高く、これらの結果に取って代わる。
これらの発見を公表する目的は、最終結果を提供するのではなく、タスク参加者にシステム記述書を提出することである。
関連論文リスト
- TransEvalnia: Reasoning-based Evaluation and Ranking of Translations [10.036450974576745]
提案するTransEvalniaは,その評価とランク付けを行う上で,推論を用いたプロンプトベースの翻訳評価とランキングシステムである。
TransEvalniaは、我々の英語と日本語のデータに基づいて、最先端のMT-Rankerよりも優れていることを示す。
また, MT-Rankerと同様に, 翻訳の順序に対するシステムの感度についても言及し, この位置バイアスに対処する手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T02:02:54Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Preliminary WMT24 Ranking of General MT Systems and LLMs [69.82909844246127]
自動メトリクスに基づくWMT24一般MTシステムの序列である。
公式ランキングは人間による評価であり、自動ランキングよりも優れている。
論文 参考訳(メタデータ) (2024-07-29T11:01:17Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - An Automatic Evaluation of the WMT22 General Machine Translation Task [9.442139459221785]
総計で185のシステムで21の翻訳方向を評価している。
これは現在最先端の機械翻訳システムの限界を浮き彫りにしている。
論文 参考訳(メタデータ) (2022-09-28T15:31:57Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - The JHU-Microsoft Submission for WMT21 Quality Estimation Shared Task [14.629380601429956]
本稿では,WMT 2021の品質評価共有タスクに対するJHU-Microsoft共同提案を提案する。
我々は,目標側の単語レベルの品質評価に焦点をあて,共有タスクのタスク2(後編集作業推定)にのみ参加する。
我々は,広く採用されているOpenKiwi-XLMベースラインと比較して,システムの競争力を示す。
論文 参考訳(メタデータ) (2021-09-17T19:13:31Z) - Difficulty-Aware Machine Translation Evaluation [19.973201669851626]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。
ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。
提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文 参考訳(メタデータ) (2021-07-30T02:45:36Z) - Scientific Credibility of Machine Translation Research: A
Meta-Evaluation of 769 Papers [21.802259336894068]
本稿では,機械翻訳(MT)の大規模メタ評価について述べる。
われわれは2010年から2020年にかけて769件の研究論文でMT評価を行った。
論文 参考訳(メタデータ) (2021-06-29T09:30:17Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。