論文の概要: RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning
- arxiv url: http://arxiv.org/abs/2505.15034v1
- Date: Wed, 21 May 2025 02:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.822132
- Title: RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning
- Title(参考訳): RL Tango: 言語推論のためのジェネレータと検証器を併用
- Authors: Kaiwen Zha, Zhengqi Gao, Maohao Shen, Zhang-Wei Hong, Duane S. Boning, Dina Katabi,
- Abstract要約: Tangoは、LLMジェネレータと検証器の両方を同時にトレーニングするためにReinforcement Learningを使用する、新しいフレームワークである。
Tangoの中心的な革新は、生成プロセスレベルのLCM検証であり、RLを介してトレーニングされ、ジェネレータと共進化する。
実験により,Tangoの2つのコンポーネントが7B/8Bスケールモデルで最先端の結果が得られることが示された。
- 参考スコア(独自算出の注目度): 26.95555634754465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has recently emerged as a compelling approach for enhancing the reasoning capabilities of large language models (LLMs), where an LLM generator serves as a policy guided by a verifier (reward model). However, current RL post-training methods for LLMs typically use verifiers that are fixed (rule-based or frozen pretrained) or trained discriminatively via supervised fine-tuning (SFT). Such designs are susceptible to reward hacking and generalize poorly beyond their training distributions. To overcome these limitations, we propose Tango, a novel framework that uses RL to concurrently train both an LLM generator and a verifier in an interleaved manner. A central innovation of Tango is its generative, process-level LLM verifier, which is trained via RL and co-evolves with the generator. Importantly, the verifier is trained solely based on outcome-level verification correctness rewards without requiring explicit process-level annotations. This generative RL-trained verifier exhibits improved robustness and superior generalization compared to deterministic or SFT-trained verifiers, fostering effective mutual reinforcement with the generator. Extensive experiments demonstrate that both components of Tango achieve state-of-the-art results among 7B/8B-scale models: the generator attains best-in-class performance across five competition-level math benchmarks and four challenging out-of-domain reasoning tasks, while the verifier leads on the ProcessBench dataset. Remarkably, both components exhibit particularly substantial improvements on the most difficult mathematical reasoning problems. Code is at: https://github.com/kaiwenzha/rl-tango.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、LLMジェネレータが検証器(逆モデル)によって導かれるポリシーとして機能する、大規模言語モデル(LLM)の推論能力を高めるための魅力的なアプローチとして最近登場した。
しかしながら、LLMの現在のRLポストトレーニング法は、典型的には、固定された(ルールベースまたは凍結事前訓練された)検証や、教師付き微調整(SFT)によって識別的に訓練された検証器を使用する。
このような設計は、ハッキングを報奨し、トレーニングディストリビューションを超えて、十分に一般化する可能性がある。
この制限を克服するため,LLMジェネレータと検証器を同時学習する新しいフレームワークであるTangoを提案する。
Tangoの中心的な革新は、生成プロセスレベルのLCM検証であり、RLを介してトレーニングされ、ジェネレータと共進化する。
重要なことは、検証者は、明示的なプロセスレベルのアノテーションを必要とせず、結果レベルの検証正当性報酬のみに基づいて訓練されることである。
この生成RL訓練検証器は、決定性またはSFT訓練検証器と比較して堅牢性と優れた一般化を示し、ジェネレータとの効果的な相互強化を促進する。
ジェネレータは5つの競合レベルの数学ベンチマークと4つの挑戦的なドメイン外推論タスクで最高レベルのパフォーマンスを達成し、検証者はProcessBenchデータセットをリードする。
注目すべきは、両方のコンポーネントは、最も難しい数学的推論問題に対して、特に顕著に改善されていることである。
コードは https://github.com/kaiwenzha/rl-tango.com にある。
関連論文リスト
- Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving [27.133677615587555]
大規模言語モデル(LLM)は、正確で検証可能な計算を必要とする数学的推論タスクに苦慮することが多い。
結果に基づく報酬から強化学習(RL)がテキストベースの推論を強化する一方で、エージェントがコード実行のような外部ツールを活用するために自律的に学習する方法を理解することは依然として重要である。
論文 参考訳(メタデータ) (2025-05-12T17:23:34Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。
標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。
我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文 参考訳(メタデータ) (2024-08-27T17:57:45Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文 参考訳(メタデータ) (2023-07-10T05:18:18Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。