論文の概要: Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning
- arxiv url: http://arxiv.org/abs/2509.19517v2
- Date: Thu, 25 Sep 2025 21:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 12:12:20.321695
- Title: Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning
- Title(参考訳): 大規模言語モデルにおける認知的負荷限界:マルチホップ推論のベンチマーク
- Authors: Sai Teja Reddy Adapala,
- Abstract要約: 大規模言語モデル(LLM)は孤立したタスクにおいて優れるが、認知的負荷下での推論はいまだに理解されていない。
本稿では,タスク不適切な情報(コンテキスト飽和)とタスク切替による干渉が,性能を低下させる重要なメカニズムであることを示唆する,計算認知負荷の形式的理論を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scaling of Large Language Models (LLMs) has exposed a critical gap between their performance on static benchmarks and their fragility in dynamic, information-rich environments. While models excel at isolated tasks, the computational limits that govern their reasoning under cognitive load remain poorly understood. In this work, we introduce a formal theory of computational cognitive load, positing that extraneous, task-irrelevant information (Context Saturation) and interference from task-switching (Attentional Residue) are key mechanisms that degrade performance. We designed the Interleaved Cognitive Evaluation (ICE), a deconfounded benchmark to systematically manipulate these load factors on challenging multi-hop reasoning tasks. A comprehensive study (N = 10 replications per item across 200 questions) revealed significant performance variations across five instruction-tuned models. Smaller open-source architectures (Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.2) exhibited baseline brittleness, achieving 0% accuracy (SEM = 0.0) across all conditions, including clean controls, on this high-intrinsic-load task. In contrast, Gemini-2.0-Flash-001 showed partial resilience, achieving 85% accuracy in control conditions, with a statistically significant degradation under context saturation ($\beta = -0.003$ per % load, $p < 0.001$). These findings provide preliminary evidence that cognitive load is a key contributor to reasoning failures, supporting theories of hallucination-as-guessing under uncertainty. We conclude that dynamic, cognitive-aware stress testing, as exemplified by the ICE benchmark, is essential for evaluating the true resilience and safety of advanced AI systems.
- Abstract(参考訳): LLM(Large Language Models)のスケーリングは、静的ベンチマークのパフォーマンスと、動的で情報豊富な環境での脆弱性の間に、重大なギャップを露呈している。
モデルは孤立したタスクにおいて排他的であるが、認知的負荷下での推論を規定する計算限界は未だ理解されていない。
本研究では,タスク非関連情報(コンテキスト飽和)とタスクスイッチング(アテンショナル残差)の干渉が性能を低下させる重要なメカニズムであることを示唆する,計算認知負荷の形式理論を導入する。
マルチホップ推論タスクの課題に対して,これらの負荷要因を体系的に操作する,非統合型ベンチマークであるInterleaved Cognitive Evaluation (ICE) を設計した。
総合的な調査(200問にまたがる項目毎の10のレプリケーション)では、5つの命令チューニングモデル間で大きなパフォーマンス変化が示された。
より小さなオープンソースアーキテクチャ (Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.2) はベースラインの脆さを示し、クリーンな制御を含む全ての条件で0%の精度(SEM = 0.0)を達成した。
対照的に、Gemini-2.0-Flash-001は部分的なレジリエンスを示し、制御条件では85%の精度で精度が向上し、文脈飽和下で統計的に有意な劣化が見られた(\beta = -0.003$ per % load, $p < 0.001$)。
これらの知見は、認知負荷が障害の推論に重要な要因であり、不確実性の下での幻覚・覚醒の理論を支持していることを示す予備的な証拠である。
我々は,高度なAIシステムの真のレジリエンスと安全性を評価する上で,ICEベンチマークが示すように,動的で認知に配慮したストレステストが不可欠である,と結論付けている。
関連論文リスト
- Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure [2.0017902634527194]
本稿では,真の消去と難読化を区別する表現対応アーキテクチャであるKnowledge Immunization Framework(KIF)を紹介する。
提案手法は,主観的表現の動的抑制とパラメータ効率の適応を組み合わせ,完全モデル再学習を伴わない耐久性のある未学習を実現する。
論文 参考訳(メタデータ) (2026-01-15T16:28:14Z) - Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - The Drill-Down and Fabricate Test (DDFT): A Protocol for Measuring Epistemic Robustness in Language Models [0.0]
現在の言語モデル評価は、理想的な条件下でモデルが知っていることを計測するが、現実的なストレス下でそれをどれだけ堅牢に知っているかは測定しない。
本稿では,ロバスト性を測定するプロトコルであるDrill-Down Fabricate Test (DDFT)を紹介する。
フラッグシップモデルはスケールにもかかわらず脆さを示すのに対して、小さなモデルは堅牢なパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2025-12-29T20:29:09Z) - Hierarchical Evaluation of Software Design Capabilities of Large Language Models of Code [7.897548449569687]
大規模言語モデル(LLM)は、ソフトウェアエンジニアリング領域でますます採用されているが、コア設計概念に対する彼らの理解の堅牢性は、まだ不明である。
さまざまなレベルのガイダンスの下で、設計の不十分なソフトウェアフラグメントを生成します。
結合に関する推論は脆く、ノイズの多いオープンエンドのシナリオでパフォーマンスが崩壊する。
Reasoning-Trace分析はこれらの障害モードを確認し、結合のためのテキスト認識的ショートカットと結合のためのより徹底的な(まだ失敗している)分析を明らかにする。
論文 参考訳(メタデータ) (2025-11-25T23:50:00Z) - SG-OIF: A Stability-Guided Online Influence Framework for Reliable Vision Data [6.4391040754741296]
本稿では,テスト予測に対するトレーニングポイントの影響を近似するための安定誘導オンライン影響フレームワーク(SG-OIF)を提案する。
CIFAR-10の上位1%の予測サンプルでは,SG-OIFが91.1%,MNISTの99.8%のAUPRスコアが得られた。
論文 参考訳(メタデータ) (2025-11-21T19:58:54Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。
最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文 参考訳(メタデータ) (2025-07-13T08:02:56Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification [25.27444694706659]
AskToActは、クエリとツールの実行ソリューションの間の構造的マッピングを利用する。
クエリから重要なパラメータを体系的に取り除き,それらを根拠として保持することにより,高品質なトレーニングデータの自動構築を可能にする。
我々のフレームワークは、異なるモデルアーキテクチャにわたって堅牢なパフォーマンスを示し、追加のトレーニングなしで完全に見えないAPIに一般化することに成功しています。
論文 参考訳(メタデータ) (2025-03-03T12:55:49Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。