論文の概要: RIVAL: Reinforcement Learning with Iterative and Adversarial Optimization for Machine Translation
- arxiv url: http://arxiv.org/abs/2506.05070v2
- Date: Tue, 05 Aug 2025 04:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.279868
- Title: RIVAL: Reinforcement Learning with Iterative and Adversarial Optimization for Machine Translation
- Title(参考訳): RIVAL:機械翻訳における反復的・逆最適化による強化学習
- Authors: Tianjiao Li, Mengran Yu, Chenyu Shi, Yanjun Zhao, Xiaojing Liu, Qiang Zhang, Qi Zhang, Xuanjing Huang, Jiayin Wang,
- Abstract要約: 大規模言語モデル(LLM)は、強い多言語機能を有し、ヒューマンフィードバックからの強化学習と翻訳タスクを組み合わせることは大きな可能性を示している。
このパラダイムは、単語の字幕翻訳タスクに適用した場合、予期せぬ性能が低下するのを観察する。
本稿では,RM と LLM の間の min-max ゲームとしてプロセスを定式化する,対角的学習フレームワーク RIVAL を提案する。
- 参考スコア(独自算出の注目度): 33.79108789619648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) possess strong multilingual capabilities, and combining Reinforcement Learning from Human Feedback (RLHF) with translation tasks has shown great potential. However, we observe that this paradigm performs unexpectedly poorly when applied to colloquial subtitle translation tasks. In this work, we investigate this issue and find that the offline reward model (RM) gradually diverges from the online LLM due to distributional shift, ultimately leading to undesirable training outcomes. To address this, we propose RIVAL, an adversarial training framework that formulates the process as a min-max game between the RM and the LLM. RIVAL iteratively updates the both models, with the RM trained to distinguish strong from weak translations (qualitative preference reward), and the LLM trained to enhance its translation for closing this gap. To stabilize training and improve generalizability, we also incorporate quantitative preference reward (e.g., BLEU) into the RM, enabling reference-free quality modeling aligned with human evaluation. Through extensive experiments, we demonstrate that the proposed adversarial training framework significantly improves upon translation baselines.
- Abstract(参考訳): 大規模言語モデル (LLM) は強力な多言語機能を有しており、RLHF (Reinforcement Learning from Human Feedback) と翻訳タスクを組み合わせることで大きな可能性を示している。
しかし,このパラダイムは,単語の字幕翻訳タスクに適用した場合,予期せぬ性能が低下することが観察された。
本研究では,この問題を考察し,オフライン報酬モデル (RM) が分散シフトによってオンライン LLM から徐々に逸脱し,最終的には望ましくないトレーニング結果をもたらすことを明らかにする。
そこで本研究では,RM と LLM の間の min-max ゲームとして,その過程を定式化する逆学習フレームワーク RIVAL を提案する。
RIVALは両方のモデルを反復的に更新し、RMは弱い翻訳と強い翻訳を区別する訓練を施し、LLMは、このギャップを閉じるための翻訳を強化する訓練を施した。
また、トレーニングを安定させ、一般化性を向上させるため、RMに量的嗜好報酬(BLEUなど)を組み込むことで、人間の評価に合わせた基準のない品質モデリングを可能にする。
広範囲な実験を通して,提案手法は翻訳ベースラインを大幅に改善することを示した。
関連論文リスト
- RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation [31.28415780479141]
Reinforcement Learning from Teacher-Model Refinement (RLfR)は、外部教師モデル(GPT-4o)からの継続的な高品質フィードバックを活用することで、静的三重項への依存を取り除く新しいフレームワークである。
FLORES-200ベンチマーク(ドイツ語、スペイン語、中国語、韓国語、日本語)では、RLfRはMT-SFTと嗜好ベースラインの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-07-29T20:35:35Z) - MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models [95.6332110724999]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模言語モデル(LLM)の強化学習を強化する直感的かつ効果的な手法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識して応答を改善するためのコンテキスト内モチベーションとして機能する。
Knights and Knaves(K&K)論理パズル推論ベンチマークに関する実証的な評価は、texttMeRFがベースラインよりもかなりの性能向上を達成することを示した。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning [77.41383117199227]
我々はポリシーMTモデルの翻訳結果と強力なLRMを比較するための新たな報酬モデリング手法を設計する。
Qwen2.5-7B-インストラクトをバックボーンとして、トレーニングされたモデルは、文学翻訳における新しい最先端のパフォーマンスを達成する。
11言語による多言語設定にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-05-19T11:34:47Z) - Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings [25.851419860597407]
本稿では,細粒度でトークンレベルの品質評価と,Reinforcement Learningを用いた誤り重大度レベルを利用した新しい手法を提案する。
我々は,標準エンコーダデコーダと大規模言語モデルに基づく機械翻訳システムを用いて,小型・大規模翻訳データセットの実験を行った。
その結果,トークンレベルの報酬を用いた学習は,自動評価と人的評価の両方に応じて,ベースラインを越えた言語ペア間の翻訳品質を向上させることがわかった。
論文 参考訳(メタデータ) (2024-11-08T21:55:37Z) - Cross-lingual Transfer of Reward Models in Multilingual Alignment [8.13893128694698]
人間のフィードバックによる強化学習(RLHF)は、正確な報酬モデル(RM)から大きく恩恵を受けることが示されている。
近年の報酬モデリングスキームの研究は英語に傾き、多言語アライメントにおけるRLHFの適用性を制限している。
様々な言語、主に英語から訓練されたRMの言語間移動について検討する。
論文 参考訳(メタデータ) (2024-10-23T17:00:13Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Imitating Language via Scalable Inverse Reinforcement Learning [34.161807103808016]
我々は,模倣に対する逆強化学習の観点からの考察に焦点をあてる。
IRLをベースとした模倣には,特にタスク性能を最大化しながら多様性を維持する上で,明らかなメリットがある。
論文 参考訳(メタデータ) (2024-09-02T16:48:57Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。