論文の概要: No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs
- arxiv url: http://arxiv.org/abs/2602.02103v1
- Date: Mon, 02 Feb 2026 13:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.17676
- Title: No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs
- Title(参考訳): 温暖化対策の国際的計画 - LLMの最近の計画方針の解明-
- Authors: Liyan Xu, Mo Yu, Fandong Meng, Jie Zhou,
- Abstract要約: この研究は、Chain-of-Thought (CoT): Large Language Models (LLMs)の力学に関する先行的な補完的な観察に由来する。
LLMは、CoTの出現前の後続の推論の遅延計画を示すため、明示的なCoTの重要性は低下する。
各種タスク領域にまたがる隠れ状態に適用し,LLMの潜在計画強度について検討する。
- 参考スコア(独自算出の注目度): 65.783709850324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work stems from prior complementary observations on the dynamics of Chain-of-Thought (CoT): Large Language Models (LLMs) is shown latent planning of subsequent reasoning prior to CoT emergence, thereby diminishing the significance of explicit CoT; whereas CoT remains critical for tasks requiring multi-step reasoning. To deepen the understanding between LLM's internal states and its verbalized reasoning trajectories, we investigate the latent planning strength of LLMs, through our probing method, Tele-Lens, applying to hidden states across diverse task domains. Our empirical results indicate that LLMs exhibit a myopic horizon, primarily conducting incremental transitions without precise global planning. Leveraging this characteristic, we propose a hypothesis on enhancing uncertainty estimation of CoT, which we validate that a small subset of CoT positions can effectively represent the uncertainty of the entire path. We further underscore the significance of exploiting CoT dynamics, and demonstrate that automatic recognition of CoT bypass can be achieved without performance degradation. Our code, data and models are released at https://github.com/lxucs/tele-lens.
- Abstract(参考訳): 大型言語モデル (LLMs) は、CoTの出現に先立って、後続の推論の遅延計画が示され、結果として明示的なCoTの重要性が低下する一方、CoTは多段階の推論を必要とするタスクに対して重要な存在である。
本研究では,LLMの内部状態と言語的推論軌跡の理解を深めるために,様々なタスク領域にまたがる隠れ状態に適用した調査手法Tele-Lensを用いて,LLMの潜在計画強度について検討する。
実験の結果, LLM は, 正確にグローバルな計画を立てることなく, 主に漸進的な遷移を行ない, 筋の水平方向を示すことが示された。
この特徴を生かして,CoT位置の小さな部分集合が経路全体の不確かさを効果的に表すことができることを示す,CoTの不確実性評価の強化に関する仮説を提案する。
さらに,CoTの動的利用の重要性を強調し,性能劣化を伴わずにCoTバイパスの自動認識を実現することを実証した。
私たちのコード、データ、モデルはhttps://github.com/lxucs/tele-lens.comでリリースされます。
関連論文リスト
- Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - Can Aha Moments Be Fake? Identifying True and Decorative Thinking Steps in Chain-of-Thought [72.45900226435289]
大きな言語モデル(LLM)は、テスト時に長いチェーン・オブ・ソート(CoT)を生成することができ、複雑なタスクを解決できる。
提案したTrue Thinking Score (TTS) を用いて、各推論ステップの段階的因果関係がモデルの最終予測に与える影響を測定する。
我々は、LLMの潜在空間におけるTrueThinking方向を同定し、モデルに特定のCoTステップの実行や無視を強制することができる。
論文 参考訳(メタデータ) (2025-10-28T20:14:02Z) - CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。
提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文 参考訳(メタデータ) (2025-08-21T00:20:47Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける「情報ゲイン」を定量化し、障害モードの識別を可能にする。
我々は,おもちゃの算術, GSM8K, PRM800kデータセットに関する広範な実験を通じて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文 参考訳(メタデータ) (2024-06-15T13:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。