論文の概要: SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation
- arxiv url: http://arxiv.org/abs/2505.16637v1
- Date: Thu, 22 May 2025 13:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.305845
- Title: SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation
- Title(参考訳): SSR-Zero:機械翻訳のための簡単な自己回帰強化学習
- Authors: Wenjie Yang, Mao Zheng, Mingyang Song, Zheng Li,
- Abstract要約: 本稿では,機械翻訳(MT)のための簡易自己回帰(SSR)強化学習(RL)フレームワークを提案する。
13Kモノリンガル例とQwen-2.5-7Bをバックボーンとして用いたSSRを用いたトレーニングを行った。
我々の最強モデルであるSSR-X-Zero-7Bは、COMETの外部監督でSSRを増強することにより、英語の$leftrightarrow$ Chinese translationにおける最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 18.162673576513832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently demonstrated remarkable capabilities in machine translation (MT). However, most advanced MT-specific LLMs heavily rely on external supervision signals during training, such as human-annotated reference data or trained reward models (RMs), which are often expensive to obtain and challenging to scale. To overcome this limitation, we propose a Simple Self-Rewarding (SSR) Reinforcement Learning (RL) framework for MT that is reference-free, fully online, and relies solely on self-judging rewards. Training with SSR using 13K monolingual examples and Qwen-2.5-7B as the backbone, our model SSR-Zero-7B outperforms existing MT-specific LLMs, e.g., TowerInstruct-13B and GemmaX-28-9B, as well as larger general LLMs like Qwen2.5-32B-Instruct in English $\leftrightarrow$ Chinese translation tasks from WMT23, WMT24, and Flores200 benchmarks. Furthermore, by augmenting SSR with external supervision from COMET, our strongest model, SSR-X-Zero-7B, achieves state-of-the-art performance in English $\leftrightarrow$ Chinese translation, surpassing all existing open-source models under 72B parameters and even outperforming closed-source models, e.g., GPT-4o and Gemini 1.5 Pro. Our analysis highlights the effectiveness of the self-rewarding mechanism compared to the external LLM-as-a-judge approach in MT and demonstrates its complementary benefits when combined with trained RMs. Our findings provide valuable insight into the potential of self-improving RL methods. We have publicly released our code, data and models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、機械翻訳(MT)において顕著な能力を示した。
しかしながら、ほとんどの先進的なMT仕様のLSMは、人間の注釈付き参照データや訓練された報酬モデル(RM)など、トレーニング中に外部の監視信号に大きく依存している。
この制限を克服するために,MTのための簡易自己回帰(SSR)強化学習(RL)フレームワークを提案する。
13Kモノリンガルの例とQwen-2.5-7Bをバックボーンとして使用したSSRによるトレーニングでは、私たちのモデルであるSSR-Zero-7Bは、既存のMT固有のLLM(eg , TowerInstruct-13B, GemmaX-28-9B)と、Qwen2.5-32B-Instruct in English $\leftrightarrow$ Chinese translation task from WMT23, WMT24, Flores200 benchmarksより優れています。
さらに、COMET の外部監督により SSR を増強することにより、我々の最強モデルである SSR-X-Zero-7B は、72B パラメータ以下の既存のオープンソースモデルをすべて上回り、また、g , GPT-4o および Gemini 1.5 Pro よりも優れたクローズドソースモデルである。
本分析では, MT の外部 LLM-as-a-judge アプローチと比較して, 自己回帰機構の有効性を強調し, RM と組み合わせた場合の相補的利点を示す。
本研究は自己改善RL法の可能性について貴重な知見を提供する。
コード、データ、モデルが公開されています。
関連論文リスト
- ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning [77.41383117199227]
我々はポリシーMTモデルの翻訳結果と強力なLRMを比較するための新たな報酬モデリング手法を設計する。
Qwen2.5-7B-インストラクトをバックボーンとして、トレーニングされたモデルは、文学翻訳における新しい最先端のパフォーマンスを達成する。
11言語による多言語設定にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-05-19T11:34:47Z) - MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning [24.59797320737557]
機械翻訳のためのR1-Zero RLフレームワークの最初のオープンソース適応であるMT-R1-Zeroを紹介する。
WMT 24 では、MT-R1-Zero-3B-Mix がタワーインストラクト-7B-v0.2 を平均 1.26 ポイント上回って競争性能を達成した。
本研究は,マルチリンガルおよび低リソース設定を頑健にサポートし,アウト・オブ・ディストリビューションMTタスクの強力な一般化機能を示す。
論文 参考訳(メタデータ) (2025-04-14T12:14:18Z) - Learning to Reason via Self-Iterative Process Feedback for Small Language Models [5.3831551965806534]
小型言語モデル (SLM) は大規模言語モデル (LLM) よりも効率的で費用効率が良く、カスタマイズできる。
この研究により、SLMは自己満足的なフィードバックから推論を学ぶことができる。
論文 参考訳(メタデータ) (2024-12-11T14:05:04Z) - Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework [1.5802986215292307]
Language Model Guided reward Tuning (LMGT)は、強化学習のための新しい、サンプル効率の高いフレームワークである。
我々は,LMGTが探索と搾取のバランスを良好に保ち,エージェントの探索行動の指針となることを示す。
以上の結果から,LMGTはRL学習期間中に必要な計算資源を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Ladder: A Model-Agnostic Framework Boosting LLM-based Machine Translation to the Next Level [9.699022347910121]
汎用大規模言語モデル(LLM)は,広範なWebコンテンツを活用することで,機械翻訳(MT)において顕著な進歩を遂げている。
しかし、翻訳固有のLLMは、ドメイン固有の単言語コーパスを事前学習し、人間の注釈付き翻訳データを用いて微調整することで構築される。
MT用汎用LLMの性能向上のための,新しいモデルに依存しない費用対効果ツールMT-Ladderを開発した。
論文 参考訳(メタデータ) (2024-06-22T05:33:35Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。