論文の概要: MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.10160v1
- Date: Mon, 14 Apr 2025 12:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:58.399800
- Title: MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning
- Title(参考訳): MT-R1-Zero:R1-Zeroライクな強化学習によるLLM機械翻訳の強化
- Authors: Zhaopeng Feng, Shaosheng Cao, Jiahan Ren, Jiayuan Su, Ruizhe Chen, Yan Zhang, Zhe Xu, Yao Hu, Jian Wu, Zuozhu Liu,
- Abstract要約: 機械翻訳のためのR1-Zero RLフレームワークの最初のオープンソース適応であるMT-R1-Zeroを紹介する。
WMT 24 では、MT-R1-Zero-3B-Mix がタワーインストラクト-7B-v0.2 を平均 1.26 ポイント上回って競争性能を達成した。
本研究は,マルチリンガルおよび低リソース設定を頑健にサポートし,アウト・オブ・ディストリビューションMTタスクの強力な一般化機能を示す。
- 参考スコア(独自算出の注目度): 24.59797320737557
- License:
- Abstract: Large-scale reinforcement learning (RL) methods have proven highly effective in enhancing the reasoning abilities of large language models (LLMs), particularly for tasks with verifiable solutions such as mathematics and coding. However, applying this idea to machine translation (MT), where outputs are flexibly formatted and difficult to automatically evaluate with explicit rules, remains underexplored. In this work, we introduce MT-R1-Zero, the first open-source adaptation of the R1-Zero RL framework for MT without supervised fine-tuning or cold-start. We propose a rule-metric mixed reward mechanism to guide LLMs towards improved translation quality via emergent reasoning. On the WMT 24 English-Chinese benchmark, our MT-R1-Zero-3B-Mix achieves competitive performance, surpassing TowerInstruct-7B-v0.2 by an average of 1.26 points. Meanwhile, our MT-R1-Zero-7B-Mix attains a high average score of 62.25 across all metrics, placing it on par with advanced proprietary models such as GPT-4o and Claude-3.5-Sonnet, while the MT-R1-Zero-7B-Sem variant achieves state-of-the-art scores on semantic metrics. Moreover, our work exhibits strong generalization capabilities on out-of-distribution MT tasks, robustly supporting multilingual and low-resource settings. Extensive analysis of model behavior across different initializations and reward metrics offers pioneering insight into the critical role of reward design, LLM adaptability, training dynamics, and emergent reasoning patterns within the R1-Zero paradigm for MT. Our code is available at https://github.com/fzp0424/MT-R1-Zero.
- Abstract(参考訳): 大規模強化学習(RL)法は,大規模言語モデル(LLM)の推論能力の向上,特に数学やコーディングなどの検証可能な解を用いたタスクに有効であることが証明されている。
しかし、このアイデアを機械翻訳(MT)に適用すると、出力は柔軟にフォーマットされ、明示的な規則で自動的に評価することは困難である。
本稿では,MT 用 R1-Zero RL フレームワークの最初のオープンソース実装である MT-R1-Zero について紹介する。
本稿では,LLMを創発的推論による翻訳品質向上へ導くためのルールメトリック混合報酬機構を提案する。
WMT 24 では、MT-R1-Zero-3B-Mix がタワーインストラクト-7B-v0.2 を平均 1.26 ポイント上回って競争性能を達成した。
一方、MT-R1-Zero-7B-Mixはすべてのメトリクスの平均スコア62.25に達し、GPT-4oやClaude-3.5-Sonnetのような先進的なプロプライエタリモデルと同等である一方、MT-R1-Zero-7B-Semはセマンティックメトリクスの最先端スコアを達成する。
さらに,本研究は,マルチリンガルおよび低リソース設定を頑健にサポートし,アウト・オブ・ディストリビューションMTタスクの強力な一般化能力を示す。
様々な初期化と報酬のメトリクスにわたるモデル行動の広範囲にわたる分析により、MTのR1-Zeroパラダイムにおける報酬設計、LLM適応性、トレーニングダイナミクス、創発的推論パターンといった重要な役割に関する先駆的な洞察が得られます。私たちのコードはhttps://github.com/fzp0424/MT-R1-Zeroで公開されています。
関連論文リスト
- Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Ladder: A Model-Agnostic Framework Boosting LLM-based Machine Translation to the Next Level [9.699022347910121]
汎用大規模言語モデル(LLM)は,広範なWebコンテンツを活用することで,機械翻訳(MT)において顕著な進歩を遂げている。
しかし、翻訳固有のLLMは、ドメイン固有の単言語コーパスを事前学習し、人間の注釈付き翻訳データを用いて微調整することで構築される。
MT用汎用LLMの性能向上のための,新しいモデルに依存しない費用対効果ツールMT-Ladderを開発した。
論文 参考訳(メタデータ) (2024-06-22T05:33:35Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - On the Complementarity between Pre-Training and Random-Initialization
for Resource-Rich Machine Translation [80.16548523140025]
テキスト表現の事前学習(PT)が低リソースニューラルネットワーク翻訳(NMT)に成功している
本稿では,それらの相補性と,PTとRIを協調させる最適輸送を用いたモデル融合アルゴリズムを提案する。
WMT'17 English- Chinese (20M) と WMT'19 English-German (36M) の2つのリソース豊富な翻訳ベンチマークの実験は、PT と RI が相互に相補的であることを示した。
論文 参考訳(メタデータ) (2022-09-07T17:23:08Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Self-supervised and Supervised Joint Training for Resource-rich Machine
Translation [30.502625878505732]
テキスト表現の自己教師付き事前学習が低リソースニューラルネットワーク翻訳(NMT)に成功している
我々は,NMTモデルを最適化するために,自己教師付き学習と教師付き学習を組み合わせた共同学習手法である$F$-XEnDecを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:35:40Z) - MENYO-20k: A Multi-domain English-Yor\`ub\'a Corpus for Machine
Translation and Domain Adaptation [1.4553698107056112]
ベンチマークのための標準列車試験スプリットを備えた低リソースYorub'a- English(yo-en)言語ペアのための,最初のマルチドメイン並列コーパスであるMENYO-20kを提案する。
bleu $+9.9$ と$8.6$ (en2yo) はfacebookの m2m-100 と google multilingual nmt と比較して大きく上昇している。
論文 参考訳(メタデータ) (2021-03-15T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。