論文の概要: ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12996v1
- Date: Mon, 19 May 2025 11:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.564207
- Title: ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning
- Title(参考訳): ExTrans: Exemplar-Enhanced Reinforcement Learningによる多言語深層推論翻訳
- Authors: Jiaan Wang, Fandong Meng, Jie Zhou,
- Abstract要約: 我々はポリシーMTモデルの翻訳結果と強力なLRMを比較するための新たな報酬モデリング手法を設計する。
Qwen2.5-7B-インストラクトをバックボーンとして、トレーニングされたモデルは、文学翻訳における新しい最先端のパフォーマンスを達成する。
11言語による多言語設定にメソッドを拡張します。
- 参考スコア(独自算出の注目度): 77.41383117199227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the emergence of large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, has shown impressive capabilities in complex problems, e.g., mathematics and coding. Some pioneering studies attempt to bring the success of LRMs in neural machine translation (MT). They try to build LRMs with deep reasoning MT ability via reinforcement learning (RL). Despite some progress that has been made, these attempts generally focus on several high-resource languages, e.g., English and Chinese, leaving the performance on other languages unclear. Besides, the reward modeling methods in previous work do not fully unleash the potential of reinforcement learning in MT. In this work, we first design a new reward modeling method that compares the translation results of the policy MT model with a strong LRM (i.e., DeepSeek-R1-671B), and quantifies the comparisons to provide rewards. Experimental results demonstrate the superiority of the reward modeling method. Using Qwen2.5-7B-Instruct as the backbone, the trained model achieves the new state-of-the-art performance in literary translation, and outperforms strong LRMs including OpenAI-o1 and DeepSeeK-R1. Furthermore, we extend our method to the multilingual settings with 11 languages. With a carefully designed lightweight reward modeling in RL, we can simply transfer the strong MT ability from a single direction into multiple (i.e., 90) translation directions and achieve impressive multilingual MT performance.
- Abstract(参考訳): 近年、OpenAI-o1やDeepSeek-R1のような大きな推論モデル(LRM)の出現は、複雑な問題、例えば数学やコーディングにおいて顕著な能力を示している。
いくつかの先駆的な研究は、神経機械翻訳(MT)におけるLEMsの成功をもたらそうとしている。
彼らは強化学習(RL)を通してMT能力の深いLEMを構築しようとしている。
いくつかの進歩があったにもかかわらず、これらの試みは一般的にいくつかの高ソース言語(例えば、英語、中国語)に焦点を当てており、他の言語のパフォーマンスは不明確である。
本研究は,政策MTモデルの翻訳結果と強力なLRM(DeepSeek-R1-671B)を比較し,その比較を定量的に評価する新たな報酬モデリング手法を最初に設計する。
実験の結果,報酬モデル法が優れていることが示された。
Qwen2.5-7B-Instruct をバックボーンとして、トレーニングされたモデルは、文学翻訳における新しい最先端のパフォーマンスを実現し、OpenAI-o1 や DeepSeeK-R1 などの強力な LRM よりも優れている。
さらに,11言語を用いた多言語設定に拡張する。
RLの軽量な報酬モデルにより、単一の方向から複数の(つまり90)翻訳方向へ強いMT能力を伝達し、印象的な多言語MT性能を実現することができる。
関連論文リスト
- MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning [23.721573333602677]
本稿では,R1-Translator (R1-T1)について紹介する。
1)MTサブタスクを超えて推論に基づく翻訳を6言語に拡張し、多様なタスク(例えば、法・医学領域適応、イディオム解決)、(2)コンテキスト認識パラフレーズやバック翻訳のようなハイブリッドな人間の戦略を反映した6つの専門家によるCoTテンプレートを定式化した。
実験結果から,フローレス101テストセットにおいて,11言語,40方向の翻訳性能が着実に向上していることが示唆された。
論文 参考訳(メタデータ) (2025-02-27T03:57:00Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - Self-supervised and Supervised Joint Training for Resource-rich Machine
Translation [30.502625878505732]
テキスト表現の自己教師付き事前学習が低リソースニューラルネットワーク翻訳(NMT)に成功している
我々は,NMTモデルを最適化するために,自己教師付き学習と教師付き学習を組み合わせた共同学習手法である$F$-XEnDecを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。