論文の概要: ToolMem: Enhancing Multimodal Agents with Learnable Tool Capability Memory
- arxiv url: http://arxiv.org/abs/2510.06664v1
- Date: Wed, 08 Oct 2025 05:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.318026
- Title: ToolMem: Enhancing Multimodal Agents with Learnable Tool Capability Memory
- Title(参考訳): ToolMem: 学習可能なツール能力メモリによるマルチモーダルエージェントの強化
- Authors: Yunzhong Xiao, Yangmin Li, Hewei Wang, Yunlong Tang, Zora Zhiruo Wang,
- Abstract要約: エージェントが以前のインタラクションからツール機能の記憶を開発できるようにするツールMemを提案する。
各種テキスト生成および画像生成ニューラルツールの学習におけるToolMemの評価を行った。
ToolMemで強化されたエージェントは、テキストおよびマルチモーダル生成シナリオにおいて、ツールのパフォーマンスを14.8%、28.7%正確に予測する。
- 参考スコア(独自算出の注目度): 9.63559753690456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents utilizing tools powered by large language models (LLMs) or vision-language models (VLMs) have demonstrated remarkable progress in diverse tasks across text and visual modalities. Unlike traditional tools such as calculators, which give deterministic outputs, neural tools perform uncertainly across task scenarios. While different tools for a task may excel in varied scenarios, existing agents typically rely on fixed tools, thus limiting the flexibility in selecting the most suitable tool for specific tasks. In contrast, humans snowball their understanding of the capabilities of different tools by interacting with them, and apply this knowledge to select the optimal tool when solving a future task. To build agents that similarly benefit from this process, we propose ToolMem that enables agents to develop memories of tool capabilities from previous interactions, by summarizing their strengths and weaknesses and storing them in memory; at inference, the agent can retrieve relevant entries from ToolMem, and select the best tool to solve individual tasks more accurately. We evaluate ToolMem on learning varied text generation and text-to-image generation neural tools. Compared to no-memory, generic agents, we find ToolMem-augmented agents predict tool performance 14.8% and 28.7% more accurately across text and multimodal generation scenarios. Moreover, ToolMem facilitates optimal tool selection among multiple choices by 21% and 24% absolute increases in respective scenarios.
- Abstract(参考訳): 大規模言語モデル (LLM) や視覚言語モデル (VLM) を利用したエージェントは、テキストや視覚的モダリティの多種多様なタスクにおいて顕著な進歩を見せている。
決定論的出力を与える電卓のような従来のツールとは異なり、ニューラルツールはタスクシナリオ間で不確実なパフォーマンスを行う。
タスクのためのさまざまなツールが様々なシナリオで優れているが、既存のエージェントは固定されたツールに依存しているため、特定のタスクに最適なツールを選択する際の柔軟性が制限される。
対照的に、人間は異なるツールの能力に対する理解を雪だるまにし、この知識を将来のタスクを解く際に最適なツールの選択に適用する。
このプロセスから同様に恩恵を受けるエージェントを構築するために,エージェントは,その強みと弱さを要約し,メモリに格納することで,以前のインタラクションからツール能力の記憶を発達させることができるToolMemを提案する。
各種テキスト生成および画像生成ニューラルツールの学習におけるツールMemの評価を行った。
非メモリ、ジェネリックエージェントと比較して、ツールMem拡張エージェントは、テキストおよびマルチモーダル生成シナリオにおいて、ツールのパフォーマンスを14.8%、28.7%正確に予測している。
さらに、ToolMemは複数の選択の最適なツール選択を容易にする。
関連論文リスト
- Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use [21.666294374943178]
トレースリッチな設定からトレースフリーなデプロイメントへ監督を移行するカリキュラム学習フレームワークを提案する。
実験では、予期せぬツール、強力なクロスドメインの一般化、そして、候補ツールの数が100を超えるほど堅牢性に一貫した向上が示されている。
論文 参考訳(メタデータ) (2026-02-23T23:50:24Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。
このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。
構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-09T04:11:16Z) - ToolGen: Unified Tool Retrieval and Calling via Generation [34.34787641393914]
ToolGenは、ツール知識を大きな言語モデルのパラメータに直接統合するパラダイムシフトです。
ToolGenは、ツール検索と自律タスク補完の両方において、優れた結果が得られることを示す。
ToolGenは、より汎用的で効率的で自律的なAIシステムを実現する。
論文 参考訳(メタデータ) (2024-10-04T13:52:32Z) - Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。