論文の概要: Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.00136v1
- Date: Thu, 30 Apr 2026 18:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.714314
- Title: Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents
- Title(参考訳): ツールがすべて必要か? LLMエージェントのツール利用税
- Authors: Kaituo Zhang, Zhen Xiong, Mingyu Zhong, Zhimeng Jiang, Zhouyuan Yuan, Zhecheng Li, Ying Lin,
- Abstract要約: セマンティック・トラクタの存在下では,ツール拡張推論は必ずしもネイティブなCoTよりも優れているとは限らない。
セマンティックノイズの下では、ツールの利得が「ツール使用税」を相殺するのに失敗することが多い。
本稿では,プロトコルによるエラーを緩和する軽量な推論時ゲートであるG-STEPを紹介する。
- 参考スコア(独自算出の注目度): 16.379755833783406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented reasoning has become a popular direction for LLM-based agents, and it is widely assumed to improve reasoning and reliability. However, we demonstrate that this consensus does not always hold: in the presence of semantic distractors, tool-augmented reasoning does not necessarily outperform native CoT. To explain this performance gap, we propose a Factorized Intervention Framework that isolates the cost of prompt formatting, the overhead of the tool-calling protocol, and the actual gain from executing tools. Our analysis reveals a critical tradeoff: under semantic noise, the gains from tools often fail to offset the "tool-use tax", which is the performance degradation introduced by the tool-calling protocol itself. To address this, we introduce G-STEP, a lightweight inference-time gate to mitigate protocol-induced errors. While this yields partial recovery, our findings suggest that more substantial improvements still require strengthening the model's intrinsic reasoning and tool-interaction capabilities.
- Abstract(参考訳): LLMをベースとしたエージェントでは,ツール強化推論が一般的になり,推論や信頼性の向上が期待されている。
しかし、このコンセンサスが常に成り立つとは限らないことを実証する。セマンティックなイントラクタの存在下では、ツール拡張推論は必ずしもネイティブなCoTより優れているとは限らない。
この性能ギャップを説明するために,プロンプトフォーマットのコスト,ツール呼び出しプロトコルのオーバーヘッド,実行ツールからの実際の利益を分離するFacterized Intervention Frameworkを提案する。
セマンティックノイズの下では、ツールコールプロトコル自体によって導入されたパフォーマンス劣化である"ツール使用税"を相殺できないことが多い。
これを解決するために,プロトコルによるエラーを緩和する軽量な推論時ゲートであるG-STEPを導入する。
これは部分的な回復をもたらすが、より実質的な改善はモデル固有の推論とツール・インタラクション能力を強化する必要があることを示唆している。
関連論文リスト
- Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations [32.820855447313825]
大規模言語モデル (LLM) は、外部ツールを利用する際の優れた能力を実証している。
LLMは、しばしばユーザーのクエリに関係のないツールに晒される。
ツールがユーザの目標を達成できなかったとしても、クエリ属性がツールパラメータに有効に割り当てられる場合、LSMはそれを呼び出す傾向があります。
論文 参考訳(メタデータ) (2026-04-13T11:23:36Z) - Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models [27.250148827297604]
HDPOは、ツールの効率を競合するスカラー目標から厳格な条件に書き換えるフレームワークです。
私たちのモデルであるMetisは、推論精度を同時に高めながら、ツールの呼び出しを桁違いに削減します。
論文 参考訳(メタデータ) (2026-04-09T17:59:57Z) - When to Trust Tools? Adaptive Tool Trust Calibration For Tool-Integrated Math Reasoning [58.75883713573783]
Tool-Integrated Reasoningは、推論軌道にツール呼び出しと実行を組み込む有望なパラダイムとして登場した。
モデルの推論がツールの結果と矛盾する場合、モデルは自身の推論を信じる傾向にあります。
アダプティブ・ツール・トラスト(ATTC、Adaptive Tool Trust)は、モデルに対して、ツール結果の信頼性や無視を適応的に選択するフレームワークである。
論文 参考訳(メタデータ) (2026-04-09T14:14:37Z) - ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。