論文の概要: MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
- arxiv url: http://arxiv.org/abs/2401.10727v2
- Date: Wed, 24 Jan 2024 03:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:28:03.806649
- Title: MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
- Title(参考訳): MLLM-Tool:ツールエージェント学習のためのマルチモーダル大規模言語モデル
- Authors: Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun
Dong, Xiaohua (Michael) Xuan, Zhengxin Li, Lin Ma, Shenghua Gao
- Abstract要約: 本稿では,オープンソースの大規模言語モデルとマルチモーダルエンコーダを組み合わせたMLLM-Toolを提案する。
学習したLLMはマルチモーダルな入力命令を意識し、関数マッチングツールを正しく選択することができる。
実験の結果,MLLM-Toolはマルチモーダル命令に適したツールを推奨できることがわかった。
- 参考スコア(独自算出の注目度): 38.610185966889226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the astonishing performance of large language models (LLMs) in
natural language comprehension and generation tasks triggered lots of
exploration of using them as central controllers to build agent systems.
Multiple studies focus on bridging the LLMs to external tools to extend the
application scenarios. However, the current LLMs' perceiving tool-use ability
is limited to a single text query, which may result in ambiguity in
understanding the users' real intentions. LLMs are expected to eliminate that
by perceiving the visual- or auditory-grounded instructions' information.
Therefore, in this paper, we propose MLLM-Tool, a system incorporating
open-source LLMs and multi-modal encoders so that the learnt LLMs can be
conscious of multi-modal input instruction and then select the function-matched
tool correctly. To facilitate the evaluation of the model's capability, we
collect a dataset featured by consisting of multi-modal input tools from
HuggingFace. Another important feature of our dataset is that our dataset also
contains multiple potential choices for the same instruction due to the
existence of identical functions and synonymous functions, which provides more
potential solutions for the same query. The experiments reveal that our
MLLM-Tool is capable of recommending appropriate tools for multi-modal
instructions. Codes and data are available at
https://github.com/MLLM-Tool/MLLM-Tool.
- Abstract(参考訳): 近年,自然言語理解と生成タスクにおける大規模言語モデル(llm)の驚くべき性能が,エージェントシステム構築のための中央制御系としての利用を大いに促進した。
複数の研究は、アプリケーションのシナリオを拡張するためにLLMを外部ツールにブリッジすることに焦点を当てている。
しかし、現在のLLMのツール使用能力は単一のテキストクエリに限られており、ユーザの実際の意図を理解するための曖昧さをもたらす可能性がある。
LLMは視覚的または聴覚的な命令の情報を知覚することでそれを排除することが期待されている。
そこで本稿では,オープンソースのLLMとマルチモーダルエンコーダを組み合わせたMLLM-Toolを提案する。
モデルの能力評価を容易にするために,hughingfaceからマルチモーダル入力ツールを用いたデータセットを収集した。
我々のデータセットのもう1つの重要な特徴は、同一の関数と同義関数が存在するため、我々のデータセットが同一の命令に対して複数の潜在的選択肢を含むことである。
実験の結果,MLLM-Toolはマルチモーダル命令に適したツールを推奨できることがわかった。
コードとデータはhttps://github.com/MLLM-Tool/MLLM-Toolで公開されている。
関連論文リスト
- Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use
Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - GPT4Tools: Teaching Large Language Model to Use Tools via
Self-instruction [41.36474802204914]
GPT4Tools は LLaMA や OPT などのオープンソース LLM のツール使用を可能にするための自己インストラクトに基づいている。
先進的な教師に様々なマルチモーダルな文脈で指示追従データセットを生成する。
論文 参考訳(メタデータ) (2023-05-30T05:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。