Fugu-MT 論文翻訳(概要): Limited Reasoning Space: The cage of long-horizon reasoning in LLMs

論文の概要: Limited Reasoning Space: The cage of long-horizon reasoning in LLMs

arxiv url: http://arxiv.org/abs/2602.19281v1
Date: Sun, 22 Feb 2026 17:28:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.56458
Title: Limited Reasoning Space: The cage of long-horizon reasoning in LLMs
Title（参考訳）: 有限共振空間:LLMにおける長方形推論のケージ
Authors: Zhenyu Li, Guanlin Wu, Cheems Wang, Yongqiang Zhao,
Abstract要約: この研究は、より大きな計算予算を持つ推論失敗は静的計画法に由来するという仮説を立てている。計画のためのモデル予測制御フレームワークHaloを提案する。
参考スコア（独自算出の注目度）: 13.848126962400878
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The test-time compute strategy, such as Chain-of-Thought (CoT), has significantly enhanced the ability of large language models to solve complex tasks like logical reasoning. However, empirical studies indicate that simply increasing the compute budget can sometimes lead to a collapse in test-time performance when employing typical task decomposition strategies such as CoT. This work hypothesizes that reasoning failures with larger compute budgets stem from static planning methods, which hardly perceive the intrinsic boundaries of LLM reasoning. We term it as the Limited Reasoning Space hypothesis and perform theoretical analysis through the lens of a non-autonomous stochastic dynamical system. This insight suggests that there is an optimal range for compute budgets; over-planning can lead to redundant feedback and may even impair reasoning capabilities. To exploit the compute-scaling benefits and suppress over-planning, this work proposes Halo, a model predictive control framework for LLM planning. Halo is designed for long-horizon tasks with reason-based planning and crafts an entropy-driven dual controller, which adopts a Measure-then-Plan strategy to achieve controllable reasoning. Experimental results demonstrate that Halo outperforms static baselines on complex long-horizon tasks by dynamically regulating planning at the reasoning boundary.
Abstract（参考訳）: CoT(Chain-of-Thought)のようなテスト時の計算戦略は、論理的推論のような複雑なタスクを解決するための大規模言語モデルの能力を大幅に強化した。しかし、実証的な研究は、計算予算を単純に増やせば、CoTのような典型的なタスク分解戦略を採用する場合、テストタイムのパフォーマンスが低下する可能性があることを示唆している。この研究は、LLM推論の本質的な境界をほとんど知覚しない静的計画法から、より大きな計算予算での推論失敗が生じるという仮説を立てている。我々はこれをリミテッド推論空間仮説と呼び、非自律確率力学系のレンズを通して理論的解析を行う。この洞察は、計算予算に最適な範囲があることを示唆している。過剰計画は冗長なフィードバックをもたらし、推論能力を損なう可能性がある。計算スケーリングの利点を生かし、過剰計画の抑制を図るため、LLM計画のためのモデル予測制御フレームワークであるHaloを提案する。 Haloは理性に基づく長期作業のために設計され、エントロピー駆動のデュアルコントローラを製作する。実験の結果,Haloは推論境界における計画の動的制御により,複雑な長距離タスクの静的ベースラインよりも優れていた。

関連論文リスト

A State-Transition Framework for Efficient LLM Reasoning [58.18141262230392]
ロングチェイン・オブ・ソート (Long Chain-of-Thought, CoT) 推論は、複雑な推論タスクにおいて、Large Language Models (LLM) のパフォーマンスを大幅に改善する。既存の研究は通常、COT配列を圧縮することでLCMの推論効率を高める。状態遷移過程としてLLMの推論過程をモデル化する効率的な推論フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-01T12:40:40Z)
Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization [9.193078163792427]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)に複雑な問題に取り組む権限を与える。最近の潜伏推論手法は、連続した隠蔽状態内で推論を行うことによって効率を最適化しようとする。 PLaTは、潜在推論を言語化から根本的に切り離すことによって計画として再構成するフレームワークである。
論文参考訳（メタデータ） (2026-01-29T07:38:18Z)
PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models [51.43746425777865]
大規模言語モデル(LLM)は、しばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおけるエラーの伝播につながる。 PILOTは,大規模モデルの戦略的監視を本質的な潜伏誘導に内部化するためのフレームワークである。
論文参考訳（メタデータ） (2026-01-07T12:38:56Z)
Geometrically-Constrained Agent for Spatial Reasoning [53.93718394870856]
視覚言語モデルは空間的推論において基本的な意味-幾何学的ギャップを示す。現在のパラダイムは、このギャップを埋めることに失敗します。本稿では,形式的タスク制約を導入することにより,このギャップを解消する学習自由エージェントパラダイムを提案する。
論文参考訳（メタデータ） (2025-11-27T17:50:37Z)
Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation [32.86351316550696]
我々は、生の長いCoTを分析し、計画と実行ステップからなる推論階層を明らかにする。本研究の目的は,計画探索と集約による単一パス推論を増強するMPPA(Multi-Path Plan Aggregation)を提案することである。これを解決するために, Twisted Sequential Monte Carlo (TSMC) を利用するプロセスレベルの優先度最適化スキームであるStep-DPOを導入する。
論文参考訳（メタデータ） (2025-10-13T17:02:41Z)
Constraints-of-Thought: A Framework for Constrained Reasoning in Language-Model-Guided Search [3.0130126601831235]
Constraints-of-Thought (Const-o-T) はモンテカルロ木探索(MCTS)が意味論的に意味のある経路を探索できるようにするフレームワークである。我々は、Const-o-Tが制約誘導推論の一般化可能な基盤を提供し、より効率的、制約整合性、ドメイン適応型プランニングを可能にすることを実証した。
論文参考訳（メタデータ） (2025-10-10T04:21:18Z)
Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文参考訳（メタデータ） (2025-08-25T03:17:17Z)
Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.83245433138508]
大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
論文参考訳（メタデータ） (2025-07-02T18:27:42Z)
Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文参考訳（メタデータ） (2025-05-08T15:01:06Z)
Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。バッチ推論前のウォームアップフェーズにおいて,LLMの論理的推論能力を高めるために,Reversal of Thought (RoT)を提案する。 RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文参考訳（メタデータ） (2024-10-16T07:44:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。