論文の概要: RIVAL: Reinforcement Learning with Iterative and Adversarial Optimization for Machine Translation
- arxiv url: http://arxiv.org/abs/2506.05070v1
- Date: Thu, 05 Jun 2025 14:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.751939
- Title: RIVAL: Reinforcement Learning with Iterative and Adversarial Optimization for Machine Translation
- Title(参考訳): RIVAL:機械翻訳における反復的・逆最適化による強化学習
- Authors: Tianjiao Li, Mengran Yu, Chenyu Shi, Yanjun Zhao, Xiaojing Liu, Qiang Zhang, Qi Zhang, Xuanjing Huang, Jiayin Wang,
- Abstract要約: 大規模言語モデル(LLM)は、強い多言語機能を有し、ヒューマンフィードバックからの強化学習と翻訳タスクを組み合わせることは大きな可能性を示している。
このパラダイムは、単語の字幕翻訳タスクに適用した場合、予期せぬ性能が低下するのを観察する。
本稿では,RM と LLM の間の min-max ゲームとしてプロセスを定式化する,対角的学習フレームワーク RIVAL を提案する。
- 参考スコア(独自算出の注目度): 33.79108789619648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) possess strong multilingual capabilities, and combining Reinforcement Learning from Human Feedback (RLHF) with translation tasks has shown great potential. However, we observe that this paradigm performs unexpectedly poorly when applied to colloquial subtitle translation tasks. In this work, we investigate this issue and find that the offline reward model (RM) gradually diverges from the online LLM due to distributional shift, ultimately leading to undesirable training outcomes. To address this, we propose RIVAL, an adversarial training framework that formulates the process as a min-max game between the RM and the LLM. RIVAL iteratively updates the both models, with the RM trained to distinguish strong from weak translations (qualitative preference reward), and the LLM trained to enhance its translation for closing this gap. To stabilize training and improve generalizability, we also incorporate quantitative preference reward (e.g., BLEU) into the RM, enabling reference-free quality modeling aligned with human evaluation. Through extensive experiments, we demonstrate that the proposed adversarial training framework significantly improves upon translation baselines.
- Abstract(参考訳): 大規模言語モデル (LLM) は強力な多言語機能を有しており、RLHF (Reinforcement Learning from Human Feedback) と翻訳タスクを組み合わせることで大きな可能性を示している。
しかし,このパラダイムは,単語の字幕翻訳タスクに適用した場合,予期せぬ性能が低下することが観察された。
本研究では,この問題を考察し,オフライン報酬モデル (RM) が分散シフトによってオンライン LLM から徐々に逸脱し,最終的には望ましくないトレーニング結果をもたらすことを明らかにする。
そこで本研究では,RM と LLM の間の min-max ゲームとして,その過程を定式化する逆学習フレームワーク RIVAL を提案する。
RIVALは両方のモデルを反復的に更新し、RMは弱い翻訳と強い翻訳を区別する訓練を施し、LLMは、このギャップを閉じるための翻訳を強化する訓練を施した。
また、トレーニングを安定させ、一般化性を向上させるため、RMに量的嗜好報酬(BLEUなど)を組み込むことで、人間の評価に合わせた基準のない品質モデリングを可能にする。
広範囲な実験を通して,提案手法は翻訳ベースラインを大幅に改善することを示した。
関連論文リスト
- Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings [25.851419860597407]
本稿では,細粒度でトークンレベルの品質評価と,Reinforcement Learningを用いた誤り重大度レベルを利用した新しい手法を提案する。
我々は,標準エンコーダデコーダと大規模言語モデルに基づく機械翻訳システムを用いて,小型・大規模翻訳データセットの実験を行った。
その結果,トークンレベルの報酬を用いた学習は,自動評価と人的評価の両方に応じて,ベースラインを越えた言語ペア間の翻訳品質を向上させることがわかった。
論文 参考訳(メタデータ) (2024-11-08T21:55:37Z) - Cross-lingual Transfer of Reward Models in Multilingual Alignment [8.13893128694698]
人間のフィードバックによる強化学習(RLHF)は、正確な報酬モデル(RM)から大きく恩恵を受けることが示されている。
近年の報酬モデリングスキームの研究は英語に傾き、多言語アライメントにおけるRLHFの適用性を制限している。
様々な言語、主に英語から訓練されたRMの言語間移動について検討する。
論文 参考訳(メタデータ) (2024-10-23T17:00:13Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Imitating Language via Scalable Inverse Reinforcement Learning [34.161807103808016]
我々は,模倣に対する逆強化学習の観点からの考察に焦点をあてる。
IRLをベースとした模倣には,特にタスク性能を最大化しながら多様性を維持する上で,明らかなメリットがある。
論文 参考訳(メタデータ) (2024-09-02T16:48:57Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。