Fugu-MT 論文翻訳(概要): MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning

論文の概要: MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning

arxiv url: http://arxiv.org/abs/2401.10727v2
Date: Wed, 24 Jan 2024 03:34:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 16:28:03.806649
Title: MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
Title（参考訳）: MLLM-Tool:ツールエージェント学習のためのマルチモーダル大規模言語モデル
Authors: Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua (Michael) Xuan, Zhengxin Li, Lin Ma, Shenghua Gao
Abstract要約: 本稿では,オープンソースの大規模言語モデルとマルチモーダルエンコーダを組み合わせたMLLM-Toolを提案する。学習したLLMはマルチモーダルな入力命令を意識し、関数マッチングツールを正しく選択することができる。実験の結果,MLLM-Toolはマルチモーダル命令に適したツールを推奨できることがわかった。
参考スコア（独自算出の注目度）: 38.610185966889226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the astonishing performance of large language models (LLMs) in natural language comprehension and generation tasks triggered lots of exploration of using them as central controllers to build agent systems. Multiple studies focus on bridging the LLMs to external tools to extend the application scenarios. However, the current LLMs' perceiving tool-use ability is limited to a single text query, which may result in ambiguity in understanding the users' real intentions. LLMs are expected to eliminate that by perceiving the visual- or auditory-grounded instructions' information. Therefore, in this paper, we propose MLLM-Tool, a system incorporating open-source LLMs and multi-modal encoders so that the learnt LLMs can be conscious of multi-modal input instruction and then select the function-matched tool correctly. To facilitate the evaluation of the model's capability, we collect a dataset featured by consisting of multi-modal input tools from HuggingFace. Another important feature of our dataset is that our dataset also contains multiple potential choices for the same instruction due to the existence of identical functions and synonymous functions, which provides more potential solutions for the same query. The experiments reveal that our MLLM-Tool is capable of recommending appropriate tools for multi-modal instructions. Codes and data are available at https://github.com/MLLM-Tool/MLLM-Tool.
Abstract（参考訳）: 近年,自然言語理解と生成タスクにおける大規模言語モデル(llm)の驚くべき性能が,エージェントシステム構築のための中央制御系としての利用を大いに促進した。複数の研究は、アプリケーションのシナリオを拡張するためにLLMを外部ツールにブリッジすることに焦点を当てている。しかし、現在のLLMのツール使用能力は単一のテキストクエリに限られており、ユーザの実際の意図を理解するための曖昧さをもたらす可能性がある。 LLMは視覚的または聴覚的な命令の情報を知覚することでそれを排除することが期待されている。そこで本稿では,オープンソースのLLMとマルチモーダルエンコーダを組み合わせたMLLM-Toolを提案する。モデルの能力評価を容易にするために,hughingfaceからマルチモーダル入力ツールを用いたデータセットを収集した。我々のデータセットのもう1つの重要な特徴は、同一の関数と同義関数が存在するため、我々のデータセットが同一の命令に対して複数の潜在的選択肢を含むことである。実験の結果,MLLM-Toolはマルチモーダル命令に適したツールを推奨できることがわかった。コードとデータはhttps://github.com/MLLM-Tool/MLLM-Toolで公開されている。

関連論文リスト

Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文参考訳（メタデータ） (2024-02-26T16:11:03Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-01-11T15:45:11Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。 8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文参考訳（メタデータ） (2023-10-04T19:39:26Z)
GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction [41.36474802204914]
GPT4Tools は LLaMA や OPT などのオープンソース LLM のツール使用を可能にするための自己インストラクトに基づいている。先進的な教師に様々なマルチモーダルな文脈で指示追従データセットを生成する。
論文参考訳（メタデータ） (2023-05-30T05:27:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。