論文の概要: The Illusion of Procedural Reasoning: Measuring Long-Horizon FSM Execution in LLMs
- arxiv url: http://arxiv.org/abs/2511.14777v1
- Date: Wed, 05 Nov 2025 18:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.34588
- Title: The Illusion of Procedural Reasoning: Measuring Long-Horizon FSM Execution in LLMs
- Title(参考訳): 手続き的推論のイリュージョン:LLMにおける長期FSM実行の測定
- Authors: Mahdi Samiei, Mahdi Mansouri, Mahdieh Soleymani Baghshah,
- Abstract要約: 大規模言語モデル (LLM) は推論問題としてのタスクにおいて顕著な結果を得た。
手続き的推論を実行し、多段階のルールベースの計算を実行する真の能力は、まだ不明である。
LLMの手続き的推論能力を評価するためのフレームワークとして有限状態機械実行を導入する。
- 参考スコア(独自算出の注目度): 10.228723521208858
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable results on tasks framed as reasoning problems, yet their true ability to perform procedural reasoning, executing multi-step, rule-based computations remains unclear. Unlike algorithmic systems, which can deterministically execute long-horizon symbolic procedures, LLMs often degrade under extended reasoning chains, but there is no controlled, interpretable benchmark to isolate and measure this collapse. We introduce Finite-State Machine (FSM) Execution as a minimal, fully interpretable framework for evaluating the procedural reasoning capacity of LLMs. In our setup, the model is given an explicit FSM definition and must execute it step-by-step given input actions, maintaining state consistency over multiple turns. This task requires no world knowledge, only faithful application of deterministic transition rules, making it a direct probe of the model's internal procedural fidelity. We measure both Turn Accuracy and Task Accuracy to disentangle immediate computation from cumulative state maintenance. Empirical results reveal systematic degradation as task horizon or branching complexity increases. Models perform significantly worse when rule retrieval involves high branching factors than when memory span is long. Larger models show improved local accuracy but remain brittle under multi-step reasoning unless explicitly prompted to externalize intermediate steps. FSM-based evaluation offers a transparent, complexity-controlled probe for diagnosing this failure mode and guiding the design of inductive biases that enable genuine long-horizon procedural competence. By grounding reasoning in measurable execution fidelity rather than surface correctness, this work helps establish a rigorous experimental foundation for understanding and improving the algorithmic reliability of LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は推論問題としてのタスクにおいて顕著な結果を得たが、手続き的推論を行い、多段階のルールベースの計算を実行する真の能力はいまだ不明である。
長い水平のシンボル手順を決定論的に実行できるアルゴリズムシステムとは異なり、LLMは拡張された推論連鎖の下で分解されることが多いが、この崩壊を分離し測定するための制御された解釈可能なベンチマークは存在しない。
我々は,LLMの手続き的推論能力を評価するための,最小かつ完全に解釈可能なフレームワークとしてFSM(Finite-State Machine)実行を紹介した。
我々の設定では、モデルは明示的なFSM定義を与えられ、与えられた入力アクションをステップバイステップで実行し、複数回にわたって状態の整合性を維持する必要がある。
このタスクは、世界の知識を必要とせず、決定論的遷移規則の忠実な適用のみを必要とし、モデルの内部の手続き的忠実性を直接調査する。
我々はターン精度とタスク精度の両方を測定し、即時計算を累積状態維持から切り離す。
経験的な結果は、タスクの水平線や分岐の複雑さが増加するにつれて、体系的な劣化を示す。
ルール検索では、メモリ幅が長い場合よりも高い分岐係数が伴う場合よりも、モデルの性能は大幅に低下する。
より大型のモデルでは、局所精度が向上したが、中間ステップの外部化を明示的に促さない限り、多段階推論の下では不安定なままである。
FSMに基づく評価は、この障害モードを診断し、真の長距離手続き能力を実現する誘導バイアスの設計を導くために、透明で複雑に制御されたプローブを提供する。
本研究は,LLMのアルゴリズム的信頼性の理解と向上のための厳密な実験基盤を確立するのに有効である。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文 参考訳(メタデータ) (2025-06-08T17:54:33Z) - Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。
DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。
我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。
提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文 参考訳(メタデータ) (2025-02-26T16:52:31Z) - Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,雑音の多い例で融合したデータからルールを推論する際の,大規模言語モデルの能力を評価するタスクであるRobust Rule Injectionを紹介する。
1)SRRはノイズ下での性能劣化を最小限に抑えた他の手法よりも優れており、(2)若干の精度の変化にもかかわらず、LLMはノイズ下で不安定を示す。
論文 参考訳(メタデータ) (2025-02-22T10:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。