論文の概要: seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs
- arxiv url: http://arxiv.org/abs/2509.16866v1
- Date: Sun, 21 Sep 2025 01:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.012592
- Title: seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs
- Title(参考訳): seqBench: LLMのシーケンス推論限界を定量化する可変ベンチマーク
- Authors: Mohammad Ramezanali, Mo Vazifeh, Paolo Santi,
- Abstract要約: 我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
- 参考スコア(独自算出の注目度): 1.0519693622157462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce seqBench, a parametrized benchmark for probing sequential reasoning limits in Large Language Models (LLMs) through precise, multi-dimensional control over several key complexity dimensions. seqBench allows systematic variation of (1) the logical depth, defined as the number of sequential actions required to solve the task; (2) the number of backtracking steps along the optimal path, quantifying how often the agent must revisit prior states to satisfy deferred preconditions (e.g., retrieving a key after encountering a locked door); and (3) the noise ratio, defined as the ratio between supporting and distracting facts about the environment. Our evaluations on state-of-the-art LLMs reveal a universal failure pattern: accuracy collapses exponentially beyond a model-specific logical depth. Unlike existing benchmarks, seqBench's fine-grained control facilitates targeted analyses of these reasoning failures, illuminating universal scaling laws and statistical limits, as detailed in this paper alongside its generation methodology and evaluation metrics. We find that even top-performing models systematically fail on seqBench's structured reasoning tasks despite minimal search complexity, underscoring key limitations in their commonsense reasoning capabilities. Designed for future evolution to keep pace with advancing models, the seqBench datasets are publicly released to spur deeper scientific inquiry into LLM reasoning, aiming to establish a clearer understanding of their true potential and current boundaries for robust real-world application.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) における逐次推論限界のパラメタライズドベンチマークであるseqBenchを紹介する。
seqBenchは、(1)タスクの解決に必要なシーケンシャルなアクションの数として定義された論理的な深さ、(2)最適な経路に沿ったバックトラックステップの数、2)遅延した前提条件を満たすためにエージェントがどれくらいの頻度で事前状態を見直しなければならないかの定量化(例えば、ロックされたドアに遭遇した後鍵を回収する必要がある)、(3)環境に関する事実の支援と注意をそらすための比率として定義されたノイズ比の体系的な変化を可能にする。
現状のLLMに対する評価では、モデル固有の論理深度を超える精度が指数関数的に崩壊するという、普遍的な失敗パターンが示される。
既存のベンチマークとは異なり、セクベンチの微粒化制御はこれらの推論失敗の標的分析を促進し、この論文で詳述したように、普遍的なスケーリング法則と統計的限界を照らし出す。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造化推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗し、コモンセンス推論機能において重要な制限を過小評価している。
先進的なモデルとペースを維持するために、将来の進化のために設計されたセクベンチデータセットは、LLM推論に関するより深い科学的調査を促進するために、公開され、彼らの真のポテンシャルと、堅牢な現実世界のアプリケーションに対する現在のバウンダリを明確に理解することを目的としている。
関連論文リスト
- STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning [6.282781900938977]
複雑な多機能理解と細粒度実行推論のための新しいベンチマークであるSTEPWISE-CODEX-Bench(SX-Bench)を提案する。
SX-Benchは非常に差別的であり、最先端のOpenAI-O3でさえハード推論タスクでは78.7%の精度しか達成していない。
論文 参考訳(メタデータ) (2025-08-07T09:28:43Z) - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。