論文の概要: Are Tools Always Beneficial? Learning to Invoke Tools Adaptively for Dual-Mode Multimodal LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.19852v1
- Date: Tue, 19 May 2026 13:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.378325
- Title: Are Tools Always Beneficial? Learning to Invoke Tools Adaptively for Dual-Mode Multimodal LLM Reasoning
- Title(参考訳): ツールは常に有用か? デュアルモードマルチモーダルLLM推論に適応的にツールを呼び出すことを学ぶ
- Authors: Qinghe Ma, Zhen Zhao, Yiming Wu, Jian Zhang, Lei Bai, Yinghuan Shi,
- Abstract要約: 本稿では,各クエリの特徴に応じてツールを呼び出すかどうかを適応的に決定するモデルであるAutoToolを紹介する。
強化学習フレームワーク内では、モード固有の報酬関数を持つ明示的な二重モード推論戦略を設計する。
実験により、AutoToolは優れた性能と高い効率を示すことが示された。
- 参考スコア(独自算出の注目度): 44.46498720264651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented reasoning has emerged as a promising direction for enhancing the reasoning capabilities of multimodal large language models (MLLMs). However, existing studies mainly focus on enabling models to perform tool invocation, while neglecting the necessity of invoking tools. We argue that tool usage is not always beneficial, as redundant or inappropriate invocations largely increase reasoning overhead and even mislead model predictions. To address this issue, we introduce AutoTool, a model that adaptively decides whether to invoke tools according to the characteristics of each query. Within a reinforcement learning framework, we design an explicit dual-mode reasoning strategy with mode-specific reward functions to guide the model toward producing accurate responses. Moreover, to prevent premature bias toward a single reasoning mode, AutoTool jointly explores and balances tool-assisted and text-centric reasoning throughout training, and promotes free exploration in later stages. Extensive experiments demonstrate that AutoTool exhibits outstanding performance and high efficiency, yielding a 21.8\% accuracy gain on V* benchmark compared to the base model, and a 44.9\% improvement in efficiency over existing tool-augmented methods on POPE benchmark. Code is available at https://github.com/MQinghe/AutoTool.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の推論能力を高めるための有望な方向としてツール拡張推論が登場した。
しかし、既存の研究は主に、ツール呼び出しの必要性を無視しながら、モデルをツール呼び出しの実行を可能にすることに焦点を当てている。
冗長あるいは不適切な呼び出しによって推論オーバーヘッドが大幅に増加し、モデル予測を誤解させるため、ツールの使用が必ずしも有益であるとは限らない、と私たちは主張しています。
この問題に対処するために,各クエリの特徴に応じてツールを呼び出すかどうかを適応的に決定するモデルであるAutoToolを紹介する。
強化学習フレームワーク内では,モード固有の報酬関数を持つ明示的な二重モード推論戦略を設計し,モデルが正確な応答を生成するよう誘導する。
さらに、単一推論モードに対する未熟なバイアスを防止するために、AutoToolはトレーニング全体を通してツールアシストとテキスト中心の推論を共同で探索し、バランスを取り、後段のフリーな探索を促進する。
大規模な実験により、AutoToolは優れた性能と高い効率を示し、V*ベンチマークではベースモデルに比べて21.8\%精度が向上し、POPEベンチマークでは既存のツール拡張手法よりも44.9\%効率が向上した。
コードはhttps://github.com/MQinghe/AutoTool.comから入手できる。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - ToolACE-R: Model-aware Iterative Training and Adaptive Refinement for Tool Learning [84.69651852838794]
ツール学習により、LLM(Large Language Models)は複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール学習のための反復学習と適応的洗練の両方を含む新しいフレームワークであるToolACE-Rを提案する。
我々は、いくつかのベンチマークデータセットにわたる広範な実験を行い、ToolACE-Rが高度なAPIベースのモデルと比較して、競争力のあるパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。
現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。
本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文 参考訳(メタデータ) (2024-06-25T11:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。