Fugu-MT 論文翻訳(概要): Preliminary WMT24 Ranking of General MT Systems and LLMs

論文の概要: Preliminary WMT24 Ranking of General MT Systems and LLMs

arxiv url: http://arxiv.org/abs/2407.19884v1
Date: Mon, 29 Jul 2024 11:01:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 14:16:11.244035
Title: Preliminary WMT24 Ranking of General MT Systems and LLMs
Title（参考訳）: 一般MTシステムとLLMのWMT24序列
Authors: Tom Kocmi, Eleftherios Avramidis, Rachel Bawden, Ondrej Bojar, Anton Dvorkovich, Christian Federmann, Mark Fishel, Markus Freitag, Thamme Gowda, Roman Grundkiewicz, Barry Haddow, Marzena Karpinska, Philipp Koehn, Benjamin Marie, Kenton Murray, Masaaki Nagata, Martin Popel, Maja Popovic, Mariya Shmatova, Steinþór Steingrímsson, Vilém Zouhar,
Abstract要約: 自動メトリクスに基づくWMT24一般MTシステムの序列である。公式ランキングは人間による評価であり、自動ランキングよりも優れている。
参考スコア（独自算出の注目度）: 69.82909844246127
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This is the preliminary ranking of WMT24 General MT systems based on automatic metrics. The official ranking will be a human evaluation, which is superior to the automatic ranking and supersedes it. The purpose of this report is not to interpret any findings but only provide preliminary results to the participants of the General MT task that may be useful during the writing of the system submission.
Abstract（参考訳）: 自動メトリクスに基づくWMT24一般MTシステムの序列である。公式ランキングは人間による評価であり、自動ランキングよりも優れている。本報告の目的は, 発見を解釈することではなく, システム提出の執筆において有用であると思われる一般MTタスクの参加者に対して, 予備的な結果を提供することである。

関連論文リスト

Preliminary Ranking of WMT25 General Machine Translation Systems [58.40564895086757]
本稿では,WMT25汎用機械翻訳共有タスクに送信された機械翻訳システム(MT)の事前ランキングについて述べる。公式のWMT25ランキングは、人間の評価に基づいており、より信頼性が高く、これらの結果に取って代わる。
論文参考訳（メタデータ） (2025-08-11T17:22:31Z)
TransEvalnia: Reasoning-based Evaluation and Ranking of Translations [10.036450974576745]
提案するTransEvalniaは,その評価とランク付けを行う上で,推論を用いたプロンプトベースの翻訳評価とランキングシステムである。 TransEvalniaは、我々の英語と日本語のデータに基づいて、最先端のMT-Rankerよりも優れていることを示す。また, MT-Rankerと同様に, 翻訳の順序に対するシステムの感度についても言及し, この位置バイアスに対処する手法を提案する。
論文参考訳（メタデータ） (2025-07-17T02:02:54Z)
Findings of the WMT 2024 Shared Task on Discourse-Level Literary Translation [75.03292732779059]
我々は、中国語、ドイツ語、ロシア語の3つの方向に注目している。今年は5つのアカデミックチームと業界チームから10の応募を受け取りました。システムの公式ランキングは、全体的な人間の判断に基づいている。
論文参考訳（メタデータ） (2024-12-16T12:54:52Z)
Initial Nugget Evaluation Results for the TREC 2024 RAG Track with the AutoNuggetizer Framework [53.12387628636912]
本報告では、TREC 2024 Retrieval-Augmented Generation (RAG) Trackの部分的な結果について概説する。我々は、情報アクセスの継続的な進歩の障壁としてRAG評価を特定した。
論文参考訳（メタデータ） (2024-11-14T17:25:43Z)
MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task [21.490930342296256]
We present the MetricX-24 submits to the WMT24 Metrics Shared Task。私たちの主な提案は、ハイブリッド参照ベース/フリーメトリックです。 WMT23 MQM 評価では MetricX-23 よりも大幅に性能が向上した。
論文参考訳（メタデータ） (2024-10-04T23:52:28Z)
Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文参考訳（メタデータ） (2024-08-25T13:29:34Z)
MT-Ranker: Reference-free machine translation evaluation by inter-system ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。 MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文参考訳（メタデータ） (2024-01-30T15:30:03Z)
Findings of the WMT 2023 Shared Task on Discourse-Level Literary Translation: A Fresh Orb in the Cosmos of LLMs [80.05205710881789]
我々は、著作権と文書レベルの中国英語ウェブ小説コーパスをリリースする。今年は7つのアカデミックチームと業界チームから14の応募を受け取りました。システムの公式ランキングは、全体的な人間の判断に基づいている。
論文参考訳（メタデータ） (2023-11-06T14:23:49Z)
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文参考訳（メタデータ） (2023-03-24T05:05:03Z)
Alibaba-Translate China's Submission for WMT 2022 Quality Estimation Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文参考訳（メタデータ） (2022-10-18T08:55:27Z)
An Automatic Evaluation of the WMT22 General Machine Translation Task [9.442139459221785]
総計で185のシステムで21の翻訳方向を評価している。これは現在最先端の機械翻訳システムの限界を浮き彫りにしている。
論文参考訳（メタデータ） (2022-09-28T15:31:57Z)
The JHU-Microsoft Submission for WMT21 Quality Estimation Shared Task [14.629380601429956]
本稿では,WMT 2021の品質評価共有タスクに対するJHU-Microsoft共同提案を提案する。我々は,目標側の単語レベルの品質評価に焦点をあて,共有タスクのタスク2(後編集作業推定)にのみ参加する。我々は,広く採用されているOpenKiwi-XLMベースラインと比較して,システムの競争力を示す。
論文参考訳（メタデータ） (2021-09-17T19:13:31Z)
Difficulty-Aware Machine Translation Evaluation [19.973201669851626]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文参考訳（メタデータ） (2021-07-30T02:45:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。