論文の概要: ReLaX: Reasoning with Latent Exploration for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2512.07558v1
- Date: Mon, 08 Dec 2025 13:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.909832
- Title: ReLaX: Reasoning with Latent Exploration for Large Reasoning Models
- Title(参考訳): ReLaX:大規模推論モデルのための遅延探索による推論
- Authors: Shimin Zhang, Xianwei Chen, Yufan Shen, Ziyuan Ye, Jibin Wu,
- Abstract要約: 我々は、トークン生成の根底にある潜在力学が、ステアリングポリシー最適化のためのよりリッチな計算構造を符号化していると論じる。
ReLaX(Reasoning with Latent eXploration)を提案する。
- 参考スコア(独自算出の注目度): 11.506415241741601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated remarkable potential in enhancing the reasoning capability of Large Reasoning Models (LRMs). However, RLVR often leads to entropy collapse, resulting in premature policy convergence and performance saturation. While manipulating token-level entropy has proven effective for promoting policy exploration, we argue that the latent dynamics underlying token generation encode a far richer computational structure for steering policy optimization toward a more effective exploration-exploitation tradeoff. To enable tractable analysis and intervention of the latent dynamics of LRMs, we leverage Koopman operator theory to obtain a linearized representation of their hidden-state dynamics. This enables us to introduce Dynamic Spectral Dispersion (DSD), a new metric to quantify the heterogeneity of the model's latent dynamics, serving as a direct indicator of policy exploration. Building upon these foundations, we propose Reasoning with Latent eXploration (ReLaX), a paradigm that explicitly incorporates latent dynamics to regulate exploration and exploitation during policy optimization. Comprehensive experiments across a wide range of multimodal and text-only reasoning benchmarks show that ReLaX significantly mitigates premature convergence and consistently achieves state-of-the-art performance.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は近年,Large Reasoning Models (LRMs) の推論能力を向上する著しい可能性を実証している。
しかし、RLVRはしばしばエントロピーの崩壊を招き、早期の政策収束と性能飽和をもたらす。
トークンレベルのエントロピーを操作することは、政策探索を促進するのに有効であることが証明されているが、トークン生成の根底にある潜在力学は、より効果的な探索-探索トレードオフに向けて政策最適化を操るためのよりリッチな計算構造をエンコードしていると我々は主張する。
LRMの潜在動力学のトラクタブル解析と介入を可能にするために、クープマン作用素理論を用いて隠れ状態力学の線形化表現を得る。
これにより、モデルの潜在力学の不均一性を定量化するための新しい指標である動的スペクトル分散(DSD)を導入することができ、政策探索の直接的な指標となる。
これらの基礎の上に構築されたReasoning with Latent eXploration (ReLaX) は、政策最適化中の探索と利用を規制するために、遅延力学を明示的に組み込んだパラダイムである。
幅広いマルチモーダルおよびテキストのみの推論ベンチマークによる総合的な実験は、ReLaXが早期収束を著しく軽減し、最先端のパフォーマンスを継続的に達成していることを示している。
関連論文リスト
- Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。