論文の概要: Prioritize the Process, Not Just the Outcome: Rewarding Latent Thought Trajectories Improves Reasoning in Looped Language Models
- arxiv url: http://arxiv.org/abs/2602.10520v1
- Date: Wed, 11 Feb 2026 04:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.469295
- Title: Prioritize the Process, Not Just the Outcome: Rewarding Latent Thought Trajectories Improves Reasoning in Looped Language Models
- Title(参考訳): Rewarding Latent Thought Trajectoriesはループ言語モデルの推論を改善する
- Authors: Williams Jonathan, Tureci Esin,
- Abstract要約: RLTT(Reward Latent Thought Trajectories)は,潜在的推論軌道全体にわたって報酬を分配する強化学習フレームワークである。
RLTTはGRPOよりも大幅に改善され、MATH-500では+14.4%、AIME24では+16.6%、BeyondAIMEでは+10.0%の精度が向上した。
RLTTは数学に特化して訓練されているにもかかわらず、非数学的推論ベンチマークに効果的に移行し、LoopLMにおける強化学習における軌道レベルの信用割当の有効性を実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Looped Language Models (LoopLMs) perform multi-step latent reasoning prior to token generation and outperform conventional LLMs on reasoning benchmarks at smaller parameter budgets. However, attempts to further improve LoopLM reasoning with reinforcement learning have failed - standard objectives such as Group Relative Policy Optimization (GRPO) only assign credit to the final latent state, creating a fundamental mismatch with the model's internal computation. To resolve this, we introduce RLTT (Reward Latent Thought Trajectories), a reinforcement learning framework which distributes reward across the full latent reasoning trajectory. RLTT provides dense, trajectory-level credit assignment without relying on external verifiers and can directly replace GRPO with negligible overhead. Across extensive experiments with Ouro-2.6B-Thinking under identical training and inference conditions, RLTT yields substantial improvements over GRPO on challenging mathematical reasoning benchmarks, improving accuracy by +14.4% on MATH-500, +16.6% on AIME24, and +10.0% on BeyondAIME. Despite being trained exclusively on mathematics, RLTT also transfers effectively to non-mathematical reasoning benchmarks, demonstrating the effectiveness of trajectory-level credit assignment for reinforcement learning in LoopLMs.
- Abstract(参考訳): Looped Language Models (LoopLMs) はトークン生成に先立って多段階の遅延推論を行い、より小さなパラメータ予算での推論ベンチマークにおいて従来のLCMよりも優れている。
しかし、強化学習によるLoopLM推論をさらに改善しようとする試みは失敗し、グループ相対政策最適化(GRPO)のような標準的な目的は最終的な潜在状態にのみクレジットを割り当て、モデルの内部計算と根本的なミスマッチを生じさせる。
この問題を解決するために、我々はRLTT(Reward Latent Thought Trajectories)を導入した。
RLTTは、外部検証に頼ることなく、密度の高いトラジェクトリレベルのクレジット割り当てを提供し、GRPOを直接無視可能なオーバーヘッドで置き換えることができる。
同一のトレーニングと推論条件下でのOuro-2.6B-Thinkingによる広範囲な実験で、RTLTTはGRPOよりもかなり改善され、MATH-500では+14.4%、AIME24では+16.6%、BeyondAIMEでは+10.0%の精度が向上した。
RLTTは数学に特化して訓練されているにもかかわらず、非数学的推論ベンチマークに効果的に移行し、LoopLMにおける強化学習における軌道レベルの信用割当の有効性を実証している。
関連論文リスト
- AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning [19.473649388687484]
大きな言語モデル(LLM)と明確な推論能力は、数学的推論では優れているが、プロセスエラーをコミットする。
本稿では,理論の強化を目的としたオンライン共同学習フレームワークGeneversarative Adrial Reasonerを紹介する。
計算効率の高いレビュースケジュールは、各推論チェーンを、同等の長さの論理的に完全なスライスに分割し、判別器は、構造化された正当化により、各スライスの音質を評価する。
論文 参考訳(メタデータ) (2025-12-18T18:59:54Z) - When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。