論文の概要: CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density
- arxiv url: http://arxiv.org/abs/2509.18458v2
- Date: Thu, 25 Sep 2025 08:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.102063
- Title: CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density
- Title(参考訳): CogniLoad: 可変長,固有の難易度,およびディトラクタ密度をベンチマークした合成自然言語推論
- Authors: Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud,
- Abstract要約: 認知負荷理論(CLT)に基づく新しい総合ベンチマークであるCogniLoadを紹介する。
CogniLoadは、CLTのコア次元を反映した、独立に調整可能なパラメータを持つ自然言語論理パズルを生成する。
CogniLoadは、タスク長を支配的な制約として識別する、異なるパフォーマンス感受性を明らかにしている。
- 参考スコア(独自算出の注目度): 2.4149105714758545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current benchmarks for long-context reasoning in Large Language Models (LLMs) often blur critical factors like intrinsic task complexity, distractor interference, and task length. To enable more precise failure analysis, we introduce CogniLoad, a novel synthetic benchmark grounded in Cognitive Load Theory (CLT). CogniLoad generates natural-language logic puzzles with independently tunable parameters that reflect CLT's core dimensions: intrinsic difficulty ($d$) controls intrinsic load; distractor-to-signal ratio ($\rho$) regulates extraneous load; and task length ($N$) serves as an operational proxy for conditions demanding germane load. Evaluating 22 SotA reasoning LLMs, CogniLoad reveals distinct performance sensitivities, identifying task length as a dominant constraint and uncovering varied tolerances to intrinsic complexity and U-shaped responses to distractor ratios. By offering systematic, factorial control over these cognitive load dimensions, CogniLoad provides a reproducible, scalable, and diagnostically rich tool for dissecting LLM reasoning limitations and guiding future model development.
- Abstract(参考訳): LLM(Large Language Models)における長文推論のための現在のベンチマークは、内在的なタスクの複雑さ、障害の干渉、タスクの長さといった重要な要素を曖昧にしていることが多い。
より正確な故障解析を可能にするために,認知負荷理論(CLT)に基づく新しいベンチマークであるCogniLoadを導入する。
内在的困難(d$)は内在的負荷を制御し、イントラクタと信号の比率(\rho$)は外在的負荷を規制し、タスク長(N$)はドイツ的負荷を要求する条件のオペレーションプロキシとして機能する。
22 SotA推論LSMを評価することで、CogniLoadは、タスク長を支配的な制約として認識し、固有の複雑性に対する様々な許容度と、障害率に対するU字型応答を明らかにする、異なるパフォーマンス感度を明らかにする。
CogniLoadは、これらの認知的負荷のシステマティックな要因制御を提供することによって、LLM推論の限界を識別し、将来のモデル開発を導く、再現可能でスケーラブルで、診断的にリッチなツールを提供する。
関連論文リスト
- The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - United Minds or Isolated Agents? Exploring Coordination of LLMs under Cognitive Load Theory [14.058714578635222]
大規模言語モデル(LLM)は、複雑で多面的なタスクに顕著なパフォーマンス天井を示す。
CoThinkerは認知的過負荷を軽減し、協調的な問題解決能力を高めるために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2025-06-07T15:48:04Z) - Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges [4.668749313973097]
本稿では,Large Language Models (LLMs) とLarge Reasoning Models (LRMs) を3段階の推論複雑性で体系的に評価する。
モデルが直接、あるいはPython Code Interpreterによって応答する26の課題をキュレートします。
LRMは、様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T18:32:35Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。