論文の概要: MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task
- arxiv url: http://arxiv.org/abs/2410.03983v1
- Date: Fri, 4 Oct 2024 23:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:50:11.631468
- Title: MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task
- Title(参考訳): MetricX-24: WMT 2024 Metrics Shared TaskへのGoogleの提出
- Authors: Juraj Juraska, Daniel Deutsch, Mara Finkelstein, Markus Freitag,
- Abstract要約: We present the MetricX-24 submits to the WMT24 Metrics Shared Task。
私たちの主な提案は、ハイブリッド参照ベース/フリーメトリックです。
WMT23 MQM 評価では MetricX-23 よりも大幅に性能が向上した。
- 参考スコア(独自算出の注目度): 21.490930342296256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present the MetricX-24 submissions to the WMT24 Metrics Shared Task and provide details on the improvements we made over the previous version of MetricX. Our primary submission is a hybrid reference-based/-free metric, which can score a translation irrespective of whether it is given the source segment, the reference, or both. The metric is trained on previous WMT data in a two-stage fashion, first on the DA ratings only, then on a mixture of MQM and DA ratings. The training set in both stages is augmented with synthetic examples that we created to make the metric more robust to several common failure modes, such as fluent but unrelated translation, or undertranslation. We demonstrate the benefits of the individual modifications via an ablation study, and show a significant performance increase over MetricX-23 on the WMT23 MQM ratings, as well as our new synthetic challenge set.
- Abstract(参考訳): 本稿では,WMT24 Metrics Shared TaskにMetricX-24を提出する。
私たちの主な提案はハイブリッド参照ベース/フリーメトリックであり、ソースセグメント、参照、またはその両方が与えられたかどうかに関わらず、翻訳をスコアできる。
測定基準は以前のWMTデータに基づいて2段階の方法でトレーニングされ、まずはDAレーティングのみ、次にMQMとDAレーティングを混合する。
両方の段階のトレーニングセットは、流速だが無関係な翻訳やアンダートランスレーションなど、いくつかの一般的な障害モードに対して、メトリックをより堅牢にするための合成例で拡張されています。
本研究は,WMT23 MQM 評価における MetricX-23 よりも顕著な性能向上を示すとともに,新たな合成課題も提示する。
関連論文リスト
- MetaMetrics-MT: Tuning Meta-Metrics for Machine Translation via Human Preference Calibration [14.636927775315783]
本稿では,機械翻訳(MT)タスクを評価するためのメタメトリックスMTを提案する。
WMT24メトリック共有タスクデータセットの実験は、MetaMetrics-MTが既存のベースライン全てより優れていることを示す。
論文 参考訳(メタデータ) (2024-11-01T06:34:30Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - ACES: Translation Accuracy Challenge Sets at WMT 2023 [7.928752019133836]
ACES Challenge Set を用いて WMT 2023 に提出されたセグメントレベルメトリクスのパフォーマンスをベンチマークした。
課題セットは68の現象からの挑戦を表す36Kの例と、146の言語ペアからなる。
各メトリクスについて、一連のエラーカテゴリに対するパフォーマンスの詳細なプロファイルと、比較を行うための全体的なACES-Scoreを提供する。
論文 参考訳(メタデータ) (2023-11-02T11:29:09Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task [61.34108034582074]
私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。
モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。
微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
論文 参考訳(メタデータ) (2022-10-18T08:51:25Z) - Embarrassingly Easy Document-Level MT Metrics: How to Convert Any
Pretrained Metric Into a Document-Level Metric [15.646714712131148]
文書レベルでコンテキストを組み込むための事前学習メトリクスを拡張する手法を提案する。
その結果, 実験条件の約85%において, 文章レベルの指標よりも高い結果が得られた。
我々の実験結果は、私たちの最初の仮説を支持し、メトリクスの単純な拡張によってコンテキストを活用できることを示す。
論文 参考訳(メタデータ) (2022-09-27T19:42:22Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - The JHU-Microsoft Submission for WMT21 Quality Estimation Shared Task [14.629380601429956]
本稿では,WMT 2021の品質評価共有タスクに対するJHU-Microsoft共同提案を提案する。
我々は,目標側の単語レベルの品質評価に焦点をあて,共有タスクのタスク2(後編集作業推定)にのみ参加する。
我々は,広く採用されているOpenKiwi-XLMベースラインと比較して,システムの競争力を示す。
論文 参考訳(メタデータ) (2021-09-17T19:13:31Z) - Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task [30.889496911261677]
本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。
我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。
BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
論文 参考訳(メタデータ) (2020-10-08T23:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。