論文の概要: RaTA-Tool: Retrieval-based Tool Selection with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.14951v1
- Date: Thu, 16 Apr 2026 12:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.896608
- Title: RaTA-Tool: Retrieval-based Tool Selection with Multimodal Large Language Models
- Title(参考訳): RaTAツール:マルチモーダル大言語モデルを用いた検索ツールの選択
- Authors: Gabriele Mattioli, Evelyn Turri, Sara Sarto, Lorenzo Baraldi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: オープンワールドマルチモーダルツール選択のための新しいフレームワークであるRaTA-Toolを紹介する。
提案手法により,MLLMはマルチモーダルクエリを構造化されたタスク記述に変換し,次に最も適切なツールを検索することができる。
タスク記述とツール選択の整合性をさらに向上するため、好みに基づく最適化段階を取り入れた。
- 参考スコア(独自算出の注目度): 57.15854852525046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool learning with foundation models aims to endow AI systems with the ability to invoke external resources -- such as APIs, computational utilities, and specialized models -- to solve complex tasks beyond the reach of standalone language generation. While recent advances in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have expanded their reasoning and perception capabilities, existing tool-use methods are predominantly limited to text-only inputs and closed-world settings. Consequently, they struggle to interpret multimodal user instructions and cannot generalize to tools unseen during training. In this work, we introduce RaTA-Tool, a novel framework for open-world multimodal tool selection. Rather than learning direct mappings from user queries to fixed tool identifiers, our approach enables an MLLM to convert a multimodal query into a structured task description and subsequently retrieve the most appropriate tool by matching this representation against semantically rich, machine-readable tool descriptions. This retrieval-based formulation naturally supports extensibility to new tools without retraining. To further improve alignment between task descriptions and tool selection, we incorporate a preference-based optimization stage using Direct Preference Optimization (DPO). To support research in this setting, we also introduce the first dataset for open-world multimodal tool use, featuring standardized tool descriptions derived from Hugging Face model cards. Extensive experiments demonstrate that our approach significantly improves tool-selection performance, particularly in open-world, multimodal scenarios.
- Abstract(参考訳): 基礎モデルによるツール学習は、AIシステムに、APIや計算ユーティリティ、特殊なモデルといった外部リソースを呼び出し、スタンドアロンの言語生成の範囲を超えた複雑なタスクを解決する能力を提供することを目的としている。
近年のLarge Language Models (LLMs) とMultimodal Large Language Models (MLLMs) の進歩により、推論と知覚能力が向上しているが、既存のツールの使用法は主にテキストのみの入力とクローズドワールド設定に限られている。
その結果、マルチモーダルなユーザ命令を解釈するのに苦労し、トレーニング中に見えないツールに一般化することができない。
本稿では,オープンソースのマルチモーダルツール選択のための新しいフレームワークであるRaTA-Toolを紹介する。
ユーザクエリから固定ツール識別子への直接マッピングを学習する代わりに、MLLMはマルチモーダルクエリを構造化されたタスク記述に変換し、この表現を意味的にリッチでマシン可読なツール記述とマッチングすることで、最も適切なツールを検索することができる。
この検索に基づく定式化は、再訓練することなく、自然に新しいツールの拡張性をサポートする。
タスク記述とツール選択の整合性をさらに向上するため,DPO(Direct Preference Optimization)を用いた嗜好ベースの最適化ステージを組み込んだ。
この環境での研究を支援するために、Hugging Faceモデルカードから派生した標準化されたツール記述を特徴とする、オープンワールドのマルチモーダルツール使用のための最初のデータセットも紹介する。
大規模な実験により,オープンワールド,マルチモーダルシナリオにおいて,ツール選択性能が著しく向上することが示された。
関連論文リスト
- Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。