論文の概要: $\mathbf{T^3}$: Reducing Belief Deviation in Reinforcement Learning for Active Reasoning
- arxiv url: http://arxiv.org/abs/2510.12264v1
- Date: Tue, 14 Oct 2025 08:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.24294
- Title: $\mathbf{T^3}$: Reducing Belief Deviation in Reinforcement Learning for Active Reasoning
- Title(参考訳): $\mathbf{T^3}$:アクティブ推論のための強化学習における信念偏差の低減
- Authors: Deyu Zou, Yongqiang Chen, Jianxiang Wang, Haochen Yang, Mufei Li, James Cheng, Pan Li, Yu Gong,
- Abstract要約: 本稿では,モデル信念の逸脱を追跡し,過剰な信念の逸脱を検出し,不定形尾を除去するために軌道を乱す単純な方法であるmathbfT3$を開発することを提案する。
$mathbfT3$は、トレーニングの安定性、トークン効率、最終的なパフォーマンスを継続的に向上し、ロールアウトトークンを約25%カットしながら最大30%のゲインを達成する。
- 参考スコア(独自算出の注目度): 25.588308192160685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active reasoning requires large language models (LLMs) to interact with external sources and strategically gather information to solve problems. Central to this process is belief tracking: maintaining a coherent understanding of the problem state and the missing information toward the solution. However, due to limited reasoning capabilities, LLM-based agents often suffer from belief deviation: they struggle to correctly model beliefs, lose track of problem states, and fall into uninformative or repetitive actions. Once this happens, errors compound and reinforcement learning (RL) training fails to properly credit the crucial exploratory steps. To address this issue, we propose to track the deviation of model beliefs and develop $\mathbf{T^3}$, a simple yet effective method that detects excessive belief deviation and truncates trajectories during training to remove uninformative tails. By preserving credit for informative prefixes, $\mathbf{T^3}$ systematically improves policy optimization. Across 5 challenging tasks, $\mathbf{T^3}$ consistently enhances training stability, token efficiency, and final performance, achieving up to 30% gains while cutting rollout tokens by roughly 25%. These results highlight belief control as a key principle for developing robust and generalizable LLM-based active reasoners.
- Abstract(参考訳): アクティブ推論は、外部ソースと相互作用し、問題を解決するために戦略的に情報を収集するために大きな言語モデル(LLM)を必要とする。
このプロセスの中心は、信念の追跡である。問題状態とソリューションに対する不足情報に対する一貫性のある理解を維持すること。
しかし、限定的な推論能力のため、LSMベースのエージェントは信念の逸脱に悩まされることが多く、信念を正しくモデル化し、問題状態の追跡を失い、非形式的または反復的な行動に陥る。
これが起こると、エラー複合と強化学習(RL)のトレーニングは、重要な探索ステップを適切に信用することができない。
この問題を解決するために、モデル信念の逸脱を追跡し、過剰な信念の逸脱を検出し、不定形尾を除去するために軌道を乱す単純な方法である$\mathbf{T^3}$を開発することを提案する。
情報的接頭辞のクレジットを保存することで、$\mathbf{T^3}$はポリシー最適化を体系的に改善する。
5つの課題に対して$\mathbf{T^3}$は、トレーニングの安定性、トークン効率、最終的なパフォーマンスを継続的に向上させ、ロールアウトトークンを約25%カットしながら最大30%のゲインを達成する。
これらの結果は、ロバストで一般化可能なLCMベースのアクティブ推論器を開発するための鍵となる原理として、信念制御を強調している。
関連論文リスト
- Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-08-12T13:48:03Z) - Answer Convergence as a Signal for Early Stopping in Reasoning [7.51755942515969]
大型言語モデル(LLM)における思考の連鎖(CoT)の促進
提案手法は,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法である。
論文 参考訳(メタデータ) (2025-06-03T07:20:54Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning [54.585428241509234]
逆カリキュラム強化学習(RL)によるR$3の学習推論を提案する。
RLは、大規模言語モデルのプロセス監視の利点を達成するために、結果監視のみを採用する。
論文 参考訳(メタデータ) (2024-02-08T16:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。