論文の概要: CoT-Space: A Theoretical Framework for Internal Slow-Thinking via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.04027v1
- Date: Thu, 04 Sep 2025 09:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.108666
- Title: CoT-Space: A Theoretical Framework for Internal Slow-Thinking via Reinforcement Learning
- Title(参考訳): CoT-Space:強化学習による内部スローシンキングの理論フレームワーク
- Authors: Zeyu Gan, Hao Yi, Yong Liu,
- Abstract要約: CoT-Spaceは、離散トークン予測タスクから連続的、推論レベルのセマンティック空間内の最適化プロセスへの推論を大言語モデル(LLM)に再キャストする。
最適CoT長への収束は、不適合と過適合の基本的なトレードオフの自然な結果であることを示す。
- 参考スコア(独自算出の注目度): 14.337056020596465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has become a pivotal approach for enhancing the reasoning capabilities of Large Language Models (LLMs). However, a significant theoretical gap persists, as traditional token-level RL frameworks fail to align with the reasoning-level nature of complex, multi-step thought processes like Chain-of-Thought (CoT). To address this challenge, we introduce CoT-Space, a novel theoretical framework that recasts LLM reasoning from a discrete token-prediction task to an optimization process within a continuous, reasoning-level semantic space. By analyzing this process from both a noise perspective and a risk perspective, we demonstrate that the convergence to an optimal CoT length is a natural consequence of the fundamental trade-off between underfitting and overfitting. Furthermore, extensive experiments provide strong empirical validation for our theoretical findings. Our framework not only provides a coherent explanation for empirical phenomena such as overthinking but also offers a solid theoretical foundation to guide the future development of more effective and generalizable reasoning agents.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高めるための重要なアプローチとなっている。
しかしながら、従来のトークンレベルのRLフレームワークは、Chain-of-Thought (CoT)のような複雑で多段階の思考プロセスの推論レベルの性質と一致しないため、大きな理論的ギャップが持続する。
この課題に対処するために、離散トークン予測タスクから連続的、推論レベルのセマンティック空間内の最適化プロセスへLCM推論をリキャストする新しい理論フレームワークであるCoT-Spaceを紹介した。
ノイズの観点からもリスクの観点からもこのプロセスを解析することにより、最適なCoT長さへの収束が、不適合と過適合の基本的なトレードオフの自然な結果であることを示す。
さらに, 広範囲な実験により, 理論的な結果に対する強い実証的検証が可能となった。
我々のフレームワークは、過剰思考のような経験的現象のコヒーレントな説明を提供するだけでなく、より効果的で一般化可能な推論エージェントの今後の発展を導くためのしっかりとした理論的基盤も提供します。
関連論文リスト
- CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective [6.963986923957048]
VAPOは、大規模言語モデルの強化学習のためのフレームワークである。
これは、値モデルバイアス、不均一なシーケンス長、スパース報酬信号といった課題に対処する。
本稿では,理論的な観点からVAPOを考察し,その仮定が課題となる分野を明らかにする。
論文 参考訳(メタデータ) (2025-05-23T15:03:41Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。
CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。
パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Understanding Reasoning in Chain-of-Thought from the Hopfieldian View [17.18897746431302]
本稿では,認知神経科学における認知のホップフィールド的視点に基づく新しい視点を紹介する。
我々は, CoT(Chain-of-Thought)推論と, 刺激, 行動, 神経集団, 表現空間といった重要な認知要素の関連性を確立する。
我々は,低次元表現空間のロバスト性を利用して,CoTにおける推論過程のロバスト性を高めるRepresentation-of-Thought(RoT)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T16:55:30Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - A Principled Framework for Knowledge-enhanced Large Language Model [58.1536118111993]
大規模言語モデル(LLM)は汎用性があるが、深い信頼性のある推論を必要とするタスクに悩まされることが多い。
本稿では、知識を効果的に固定し、閉ループ推論プロセスを用いるLLMを作成するための厳密な設計のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-18T18:10:02Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。