論文の概要: Beyond Accuracy: A Cognitive Load Framework for Mapping the Capability Boundaries of Tool-use Agents
- arxiv url: http://arxiv.org/abs/2601.20412v1
- Date: Wed, 28 Jan 2026 09:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.871612
- Title: Beyond Accuracy: A Cognitive Load Framework for Mapping the Capability Boundaries of Tool-use Agents
- Title(参考訳): Beyond Accuracy: ツール使用エージェントの能力境界をマッピングするための認知的負荷フレームワーク
- Authors: Qihao Wang, Yue Hu, Mingzhe Lu, Jiayue Wu, Yanbing Liu, Yuanmin Tang,
- Abstract要約: 我々は認知負荷理論に基づくフレームワークを導入し、単純なパフォーマンススコアから診断ツールに移行する。
我々のフレームワークは、タスクの複雑さを2つの定量化可能なコンポーネントに分解します。
評価の結果,認知的負荷の増加に伴い,各モデルの能力境界を正確にマッピングすることが可能になった。
- 参考スコア(独自算出の注目度): 11.65679508751598
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ability of Large Language Models (LLMs) to use external tools unlocks powerful real-world interactions, making rigorous evaluation essential. However, current benchmarks primarily report final accuracy, revealing what models can do but obscuring the cognitive bottlenecks that define their true capability boundaries. To move from simple performance scoring to a diagnostic tool, we introduce a framework grounded in Cognitive Load Theory. Our framework deconstructs task complexity into two quantifiable components: Intrinsic Load, the inherent structural complexity of the solution path, formalized with a novel Tool Interaction Graph; and Extraneous Load, the difficulty arising from ambiguous task presentation. To enable controlled experiments, we construct ToolLoad-Bench, the first benchmark with parametrically adjustable cognitive load. Our evaluation reveals distinct performance cliffs as cognitive load increases, allowing us to precisely map each model's capability boundary. We validate that our framework's predictions are highly calibrated with empirical results, establishing a principled methodology for understanding an agent's limits and a practical foundation for building more efficient systems.
- Abstract(参考訳): 外部ツールを使用する大規模言語モデル(LLM)の能力は、強力な現実世界の相互作用を解放し、厳密な評価が不可欠である。
しかし、現在のベンチマークは主に最終精度を報告し、モデルに何ができるかを明らかにするが、真の能力境界を定義する認知的ボトルネックを無視する。
単純なパフォーマンススコアから診断ツールに移行するために,認知負荷理論に基づくフレームワークを導入する。
我々のフレームワークは、タスクの複雑さを2つの定量化可能なコンポーネントに分解する。本質的な負荷(Intrinsic Load)、ソリューションパスの固有の構造的複雑さ(intrinsic complexity)、新しいツールインタラクショングラフ(Tool Interaction Graph)、曖昧なタスクの提示から生じる困難(extraneous Load)である。
制御された実験を可能にするため、パラメトリック調整可能な認知負荷を持つ最初のベンチマークであるToolLoad-Benchを構築した。
評価の結果,認知的負荷の増加に伴い,各モデルの能力境界を正確にマッピングすることが可能になった。
本フレームワークの予測は,エージェントの限界を理解するための原則的方法論と,より効率的なシステム構築のための実践的基盤を確立し,経験的結果で高度に校正されていることを検証した。
関連論文リスト
- SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over Knowledge Graphs [28.59157823781425]
SEALは、自己進化型エージェント学習に基づく、2段階のセマンティックパーシングフレームワークである。
SEALは、特にマルチホップ推論、比較、集約タスクにおいて、最先端のパフォーマンスを達成する。
その結果, 構造精度と計算効率の両面で有意な向上が認められた。
論文 参考訳(メタデータ) (2025-12-04T14:52:30Z) - Toward a unified framework for data-efficient evaluation of large language models [12.922829524961813]
LEGO-IRTはデータ効率の大きな言語モデル評価のための統一的で柔軟なフレームワークです。
バイナリと継続的評価のメトリクスの両方をサポートする。
LEGO-IRTは,全体の評価項目のわずか3%の費用で,安定した能力推定を実現していることを示す。
論文 参考訳(メタデータ) (2025-10-05T06:13:50Z) - Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning [0.0]
大規模言語モデル(LLM)は孤立したタスクにおいて優れるが、認知的負荷下での推論はいまだに理解されていない。
本稿では,タスク不適切な情報(コンテキスト飽和)とタスク切替による干渉が,性能を低下させる重要なメカニズムであることを示唆する,計算認知負荷の形式的理論を導入する。
論文 参考訳(メタデータ) (2025-09-23T19:36:56Z) - Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。
実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった
FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。