論文の概要: Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2602.01983v1
- Date: Mon, 02 Feb 2026 11:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.111781
- Title: Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning
- Title(参考訳): マルチモーダル推論における学習不要体験再利用によるツールユーザからクリエータへの進化
- Authors: Xintian Shen, Jiawei Chen, Lihao Zheng, Hao Ma, Tao Wei, Kun Zhan,
- Abstract要約: エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
- 参考スコア(独自算出の注目度): 16.12114923351562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%$\uparrow$ and +23.04%$\uparrow$ on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.
- Abstract(参考訳): 既存のツール統合推論(TIR)モデルは、外部ツールを組み込むことで、LLMの質問応答能力を効果的に拡張した。
しかし、現実のシナリオでは、固定ツールがタスク要求を満たしていない場合が多い、多くのオープンエンドの問題が発生します。
さらに、自己最適化機構の欠如は、誤ったツール出力がLCMの応答を誤解させる可能性があることを意味する。
さらに、既存のツールの構築にはかなりの手作業が必要で、その結果、適用性が制限される。
LLMの推論トレースが暗黙的な問題解決能力をカプセル化していることを認識し,ツールユーザからツール作成者へエージェントを変換する新たなトレーニングフリーフレームワークであるUCTを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
エージェントを単なるツールユーザからツール作成者に変換し、推論プロセス中に適応的なツール作成と自己更新を可能にする。
また,ツールライブラリをメンテナンスするためのメモリ統合機構を導入し,その後の推論タスクに対するメモリ保持の高再利用性を確保した。
この新しい自動ツール構築パラダイムは、推論中のツール品質を継続的に改善し、エージェントシステム全体を追加のトレーニングなしで前進させることができる。
広汎な実験により,本手法はTIRモデルの能力向上のための新しいパラダイムとして機能することが示された。
特に、20.86%$\uparrow$と+23.04%$\uparrow$を多分野の数学的および科学的推論タスクのベンチマークで達成し、エージェントの自己進化能力を検証した。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する
Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。
ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文 参考訳(メタデータ) (2025-07-29T14:12:28Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。
ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文 参考訳(メタデータ) (2023-05-26T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。