Fugu-MT 論文翻訳(概要): LLM Agents Already Know When to Call Tools -- Even Without Reasoning

論文の概要: LLM Agents Already Know When to Call Tools -- Even Without Reasoning

arxiv url: http://arxiv.org/abs/2605.09252v1
Date: Sun, 10 May 2026 01:37:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.144514
Title: LLM Agents Already Know When to Call Tools -- Even Without Reasoning
Title（参考訳）: LLMのエージェントは、いつツールを呼ぶべきかをすでに知っている推論なしでも
Authors: Chung-En Sun, Linbo Liu, Ge Yan, Zimo Wang, Tsui-Wei Weng,
Abstract要約: LLMエージェントは、たとえモデルが直接答えられるとしても、ツールを無差別に呼び出す傾向がある。ツールコールが実際に必要になった場合、既存のベンチマークは体系的に研究されない。ツールの必要性の3つのカテゴリにまたがる18の環境のベンチマークである When2Tool を提案する。
参考スコア（独自算出の注目度）: 25.40369702634587
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tool-augmented LLM agents tend to call tools indiscriminately, even when the model can answer directly. Each unnecessary call wastes API fees and latency, yet no existing benchmark systematically studies when a tool call is actually needed. We propose When2Tool, a benchmark of 18 environments (15 single-hop, 3 multi-hop) spanning three categories of tool necessity -- computational scale, knowledge boundaries, and execution reliability -- each with controlled difficulty levels that create a clear decision boundary between tool-necessary and tool-unnecessary tasks. We evaluate two families of training-free baselines: Prompt-only (varying the prompt to discourage unnecessary calls) and Reason-then-Act (requiring the model to reason about tool necessity before acting). Both provide limited control: Prompt-only suppresses necessary calls alongside unnecessary ones, and Reason-then-Act still incurs a disproportionate accuracy cost on hard tasks. To understand why these baselines fail, we probe the models' hidden states and find that tool necessity is linearly decodable from the pre-generation representation with AUROC 0.89--0.96 across six models, substantially exceeding the model's own verbalized reasoning. This reveals that models already know when tools are needed, but fail to act on this knowledge during generation. Building on this finding, we propose Probe&Prefill, which uses a lightweight linear probe to read the hidden-state signal and prefills the model's response with a steering sentence. Across all models tested, Probe&Prefill reduces tool calls by 48% with only 1.7% accuracy loss, while the best baseline at comparable accuracy only reduces 6% of tool calls, or achieves a similar tool call reduction but incurs a 5$\times$ higher accuracy loss. Our code is available at https://github.com/Trustworthy-ML-Lab/when2tool
Abstract（参考訳）: ツール拡張LDMエージェントは、モデルが直接答えられる場合でも、ツールを無差別に呼び出す傾向がある。不要なコールはAPI料金とレイテンシを無駄にしますが、ツールコールが実際に必要になった場合、既存のベンチマークは体系的に研究していません。ツールに必要な3つのカテゴリ – 計算スケール,知識境界,実行信頼性 – にまたがる18の環境(シングルホップ15,マルチホップ3)のベンチマークであるWhen2Toolを提案する。 Prompt-only(不必要な呼び出しを拒否するプロンプト)とReason-then-Act(行動前に道具の必要性を推論するためにモデルを求める)の2つのファミリーを評価した。どちらも制限されたコントロールを提供する: Prompt-onlyは不要な呼び出しと並行して必要な呼び出しを抑圧し、Reason-then-Actは依然としてハードタスクにおいて不均等な精度のコストを発生させる。これらのベースラインが失敗する理由を理解するため、モデルが隠れた状態を探索し、6つのモデルに対してAUROC 0.89--0.96を用いた前世代の表現からツールの必要条件が線形に退避可能であることを発見した。これは、モデルがいつツールが必要なのかを既に知っているが、世代毎にこの知識に作用しないことを示している。この発見に基づいて,隠れ状態信号を読み取るために軽量線形プローブを用いて,ステアリング文でモデルの応答をプリフィルするProbe&Prefillを提案する。テストされたすべてのモデル全体で、Probe&Prefillはツールコールを48%削減し、精度は1.7%しかなく、最高のベースラインはツールコールの6%しか削減できない。私たちのコードはhttps://github.com/Trustworthy-ML-Lab/when2toolで利用可能です。

関連論文リスト

Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning [59.74608632210439]
そこで本研究では,ツール使用の自然な動作を,ツールなし推論能力を犠牲にすることなく,強力な思考モデルに注入する方法を示す。提案手法は,オープンソースモデル間のベンチマークにおいて,最先端のパフォーマンスを実現するモデルを生成する。
論文参考訳（メタデータ） (2026-05-07T14:23:21Z)
To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling [13.42769424615184]
本稿では,Web検索ツールの利用判断を評価するために,意思決定理論に着想を得た原則的フレームワークを提案する。モデルが認識するツールコールの必要性とユーティリティは、多くの場合、その真のニーズとユーティリティと不一致である。我々の推定器は、意思決定品質を向上し、タスク性能を向上するシンプルなコントローラを可能にする。
論文参考訳（メタデータ） (2026-05-01T15:38:13Z)
When to Trust Tools? Adaptive Tool Trust Calibration For Tool-Integrated Math Reasoning [58.75883713573783]
Tool-Integrated Reasoningは、推論軌道にツール呼び出しと実行を組み込む有望なパラダイムとして登場した。モデルの推論がツールの結果と矛盾する場合、モデルは自身の推論を信じる傾向にあります。アダプティブ・ツール・トラスト(ATTC、Adaptive Tool Trust)は、モデルに対して、ツール結果の信頼性や無視を適応的に選択するフレームワークである。
論文参考訳（メタデータ） (2026-04-09T14:14:37Z)
ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning [11.99927786717109]
ToolMATHは、数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換する。 ToolMATHは、ツール拡張されたエージェントの障害モードの実行可能な診断証拠を提供する。
論文参考訳（メタデータ） (2026-02-24T09:23:12Z)
One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文参考訳（メタデータ） (2025-10-30T06:08:27Z)
Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文参考訳（メタデータ） (2025-06-05T04:35:49Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models [43.895478182631116]
ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。結果は、ToolBHベンチマークで提示された重要な課題を示している。
論文参考訳（メタデータ） (2024-06-28T16:03:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。