論文の概要: MetricX-25 and GemSpanEval: Google Translate Submissions to the WMT25 Evaluation Shared Task
- arxiv url: http://arxiv.org/abs/2510.24707v1
- Date: Tue, 28 Oct 2025 17:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.332669
- Title: MetricX-25 and GemSpanEval: Google Translate Submissions to the WMT25 Evaluation Shared Task
- Title(参考訳): MetricX-25とGemSpanEval: Googleが送信をWMT25評価共有タスクに移行
- Authors: Juraj Juraska, Tobias Domhan, Mara Finkelstein, Tetsuji Nakagawa, Geza Kovacs, Daniel Deutsch, Pidong Wang, Markus Freitag,
- Abstract要約: We present our submits to the unified WMT25 Translation Evaluation Shared Task。
The Quality Score Prediction subtask, we create a new generation of MetricX with improve in the input format and the training protocol。
Error Span Detection subtaskでは,その重大さやカテゴリとともにエラー幅を予測するために,GemSpanEvalという新しいモデルを開発した。
- 参考スコア(独自算出の注目度): 20.03717974553634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our submissions to the unified WMT25 Translation Evaluation Shared Task. For the Quality Score Prediction subtask, we create a new generation of MetricX with improvements in the input format and the training protocol, while for the Error Span Detection subtask we develop a new model, GemSpanEval, trained to predict error spans along with their severities and categories. Both systems are based on the state-of-the-art multilingual open-weights model Gemma 3, fine-tuned on publicly available WMT data. We demonstrate that MetricX-25, adapting Gemma 3 to an encoder-only architecture with a regression head on top, can be trained to effectively predict both MQM and ESA quality scores, and significantly outperforms its predecessor. Our decoder-only GemSpanEval model, on the other hand, we show to be competitive in error span detection with xCOMET, a strong encoder-only sequence-tagging baseline. With error span detection formulated as a generative task, we instruct the model to also output the context for each predicted error span, thus ensuring that error spans are identified unambiguously.
- Abstract(参考訳): 本稿では,統合されたWMT25翻訳評価共有タスクについて提案する。
The Quality Score Prediction subtask, we create a new generation of MetricX with improve in the input format and the training protocol, while the Error Span Detection subtask, we developed a new model, GemSpanEval。
どちらのシステムも、最先端の多言語オープンウェイトモデル Gemma 3 に基づいており、公開されているWMTデータに基づいて微調整されている。
Gemma 3をレグレッションヘッドを持つエンコーダのみのアーキテクチャに適応させるMetricX-25は、MQMとESAの品質スコアの両方を効果的に予測する訓練が可能で、前者よりも大幅に優れています。
一方、デコーダのみのGemSpanEvalモデルは、強いエンコーダのみのシーケンスタグ付けベースラインであるxCOMETとエラースパン検出において競合することを示す。
生成タスクとして定式化されたエラースパン検出により、予測されたエラースパンのコンテキストも出力するようにモデルに指示し、エラースパンが曖昧に識別されるようにする。
関連論文リスト
- Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。