論文の概要: Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use
- arxiv url: http://arxiv.org/abs/2605.14038v2
- Date: Sun, 17 May 2026 15:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.904924
- Title: Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use
- Title(参考訳): LLMツール使用におけるノウハウ・ド・ギャップのモデル適応ツールの必要性
- Authors: Yize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feizi,
- Abstract要約: 大規模言語モデル(LLM)は、外部ツールを呼び出す時と直接答える時を判断しなければならない自律的なエージェントとして、ますます機能します。
本稿では,各モデルの経験的性能に基づいて,ツール必要度をモデル適応的に定義する。
その結果,26.5~54.0%,30.8~41.8%のミスマッチが認められた。
- 参考スコア(独自算出の注目度): 47.29360932085394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly act as autonomous agents that must decide when to answer directly vs. when to invoke external tools. Prior work studying adaptive tool use has largely treated tool necessity as a model-agnostic property, annotated by human or LLM judge, and mostly cover cases where the answer is obvious (e.g., fetching the weather vs. paraphrasing text). However, tool necessity in the wild is more nuanced due to the divergence of capability boundaries across models: a problem solvable by a strong model on its own may still require tools for a weaker one. In this work, we introduce a model-adaptive definition of tool-necessity, grounded in each model's empirical performance. Following this definition, we compare the necessity against observed tool-call behavior across four models on arithmetic and factual QA dataset, and find substantial mismatches of 26.5-54.0% and 30.8-41.8%, respectively. To diagnose the failure, we decompose tool use into two stages: an internal cognition stage that reflects whether a model believes a tool is necessary, and an execution stage that determines whether the model actually makes a tool-call action. By probing the LLM hidden states, we find that both signals are often linearly decodable, yet their probe directions become nearly orthogonal in the late-layer, last-token regime that drives the next-token action. By tracing the trajectory of samples in the two-stage process, we further discover that the majority of mismatch is concentrated in the cognition-to-action transition, not in cognition itself. These results reveal a knowing-doing gap in LLM tool-use: improving tool-use reliability requires not only better recognition of when tools are needed, but also better translation of that recognition into action.
- Abstract(参考訳): 大規模言語モデル(LLM)は、外部ツールを呼び出す時と直接答える時を判断しなければならない自律的なエージェントとして、ますます機能します。
適応ツールの使用を研究する以前の研究は、ツールの必要性をモデルに依存しない性質として扱い、人間やLLMの裁判官によって注釈付けされ、答えが明らかなケースを主にカバーしていた(例えば、天気とパラフレーズテキストをフェッチする)。
しかし、モデル間の機能境界のばらつきにより、ワイルドにおけるツールの必要性はより曖昧になっている。
本研究では,各モデルの経験的性能を基礎として,ツール必要度をモデル適応的に定義する。
この定義に従うと、算術的および実数的QAデータセット上の4つのモデルで観測されたツールコール行動に対する必要性を比較し、それぞれ26.5-54.0%と30.8-41.8%のミスマッチを求める。
失敗を診断するために、我々はツールの使用を、モデルがツールが必要であると信じるかどうかを反映する内部認識段階と、モデルが実際にツールコールアクションを行うかどうかを決定する実行段階の2つの段階に分解する。
LLM隠蔽状態の探索により、両信号はしばしば線形デオード可能であるが、そのプローブ方向は、次の起爆作用を駆動する遅延層、最終トーケン状態においてほぼ直交する。
2段階のプロセスでサンプルの軌跡を辿ることで、ミスマッチの大多数が認識から行動への遷移に集中していることが分かる。
ツール使用信頼性の向上には,ツールが必要なときの認識性の向上だけでなく,その認識の動作への変換性の向上も必要である。
関連論文リスト
- LLM Agents Already Know When to Call Tools -- Even Without Reasoning [25.40369702634587]
LLMエージェントは、たとえモデルが直接答えられるとしても、ツールを無差別に呼び出す傾向がある。
ツールコールが実際に必要になった場合、既存のベンチマークは体系的に研究されない。
ツールの必要性の3つのカテゴリにまたがる18の環境のベンチマークである When2Tool を提案する。
論文 参考訳(メタデータ) (2026-05-10T01:37:40Z) - Beyond the Black Box: Interpretability of Agentic AI Tool Use [0.0]
本稿では,スパースオートエンコーダと線形プローブ上に構築された機械論的・解釈可能性ツールキットを提案する。
フレームワークは各アクションの前にモデル状態を読み出し、ツールが必要かどうか、そして次のツールアクションがいかに適切かの両方を推測する。
我々は、NVIDIA Nemotron関数呼び出しデータセットから多段階の軌道上のプローブをトレーニングし、GPT-OSS 20BとGemma 3 27Bモデルに同じワークフローを適用する。
論文 参考訳(メタデータ) (2026-05-07T19:47:30Z) - When to Trust Tools? Adaptive Tool Trust Calibration For Tool-Integrated Math Reasoning [58.75883713573783]
Tool-Integrated Reasoningは、推論軌道にツール呼び出しと実行を組み込む有望なパラダイムとして登場した。
モデルの推論がツールの結果と矛盾する場合、モデルは自身の推論を信じる傾向にあります。
アダプティブ・ツール・トラスト(ATTC、Adaptive Tool Trust)は、モデルに対して、ツール結果の信頼性や無視を適応的に選択するフレームワークである。
論文 参考訳(メタデータ) (2026-04-09T14:14:37Z) - ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning [11.99927786717109]
ToolMATHは、数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換する。
ToolMATHは、ツール拡張されたエージェントの障害モードの実行可能な診断証拠を提供する。
論文 参考訳(メタデータ) (2026-02-24T09:23:12Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。