論文の概要: Empowering Multimodal LLMs with External Tools: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2508.10955v1
- Date: Thu, 14 Aug 2025 07:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.608627
- Title: Empowering Multimodal LLMs with External Tools: A Comprehensive Survey
- Title(参考訳): 外部ツールによるマルチモーダルLLMの活用:総合的な調査
- Authors: Wenbin An, Jiahao Nie, Yaqiang Wu, Feng Tian, Shijian Lu, Qinghua Zheng,
- Abstract要約: MLLM(Multimodal Large Language Models)は、人工知能への有望な経路を指して、様々なマルチモーダルタスクにおいて大きな成功を収めた。
マルチモーダルデータの欠如、複雑な下流タスクの性能の低下、不適切な評価プロトコルがMLLMの信頼性とより広範な適用性を妨げている。
推論と問題解決の強化に外部ツールを活用する人間の能力にインスパイアされたMLLMを外部ツールで強化することは、これらの課題を克服するための有望な戦略を提供する。
- 参考スコア(独自算出の注目度): 61.66069828956139
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: By integrating the perception capabilities of multimodal encoders with the generative power of Large Language Models (LLMs), Multimodal Large Language Models (MLLMs), exemplified by GPT-4V, have achieved great success in various multimodal tasks, pointing toward a promising pathway to artificial general intelligence. Despite this progress, the limited quality of multimodal data, poor performance on many complex downstream tasks, and inadequate evaluation protocols continue to hinder the reliability and broader applicability of MLLMs across diverse domains. Inspired by the human ability to leverage external tools for enhanced reasoning and problem-solving, augmenting MLLMs with external tools (e.g., APIs, expert models, and knowledge bases) offers a promising strategy to overcome these challenges. In this paper, we present a comprehensive survey on leveraging external tools to enhance MLLM performance. Our discussion is structured along four key dimensions about external tools: (1) how they can facilitate the acquisition and annotation of high-quality multimodal data; (2) how they can assist in improving MLLM performance on challenging downstream tasks; (3) how they enable comprehensive and accurate evaluation of MLLMs; (4) the current limitations and future directions of tool-augmented MLLMs. Through this survey, we aim to underscore the transformative potential of external tools in advancing MLLM capabilities, offering a forward-looking perspective on their development and applications. The project page of this paper is publicly available athttps://github.com/Lackel/Awesome-Tools-for-MLLMs.
- Abstract(参考訳): マルチモーダルエンコーダの知覚能力とLarge Language Models (LLMs) の生成能力を統合することで、GPT-4Vで実証されたマルチモーダル言語モデル (MLLMs) は様々なマルチモーダルタスクにおいて大きな成功を収め、人工知能への有望な経路を指している。
このような進展にもかかわらず、マルチモーダルデータの品質の限界、多くの複雑な下流タスクの性能の低下、不適切な評価プロトコルは様々な領域にわたるMLLMの信頼性と適用性を妨げ続けている。
推論と問題解決の強化に外部ツールを活用する人間の能力に触発され、外部ツール(API、エキスパートモデル、ナレッジベースなど)によるMLLMの拡張は、これらの課題を克服するための有望な戦略を提供する。
本稿では,MLLMの性能向上のために外部ツールを活用するための総合的な調査を行う。
我々は,(1)高品質なマルチモーダルデータの取得とアノテーションの促進,(2)下流タスクにおけるMLLMのパフォーマンス向上の支援,(3)MLLMの包括的かつ正確な評価の実現,(4)ツール強化MLLMの現在の限界と今後の方向性について,外部ツールの4つの重要な側面に沿って検討を行った。
本調査は,MLLMの能力向上における外部ツールの変革的可能性を明らかにすることを目的としている。
この論文のプロジェクトページは、https://github.com/Lackel/Awesome-Tools-for-MLLMsで公開されている。
関連論文リスト
- Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework [23.42251949130555]
マルチモーダル大言語モデル (MLLM) は視覚的質問応答 (VQA) のようなタスクにおいて有望であることを示す
最近の研究は、パフォーマンスを改善するためにエージェントフレームワークやチェーン・オブ・思想(CoT)の推論に適応しています。
本稿では,学習自由なマルチモーダル推論フレームワークであるSeeing and Reasoning with Confidence (SRICE)を提案する。
論文 参考訳(メタデータ) (2025-03-11T11:18:53Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on
Generalizability, Trustworthiness and Causality through Four Modalities [111.44485171421535]
本研究では,最近のプロプライエタリおよびオープンソースMLLMの一般化性,信頼性,因果推論能力について,4つのモードで検討する。
これらの特性はMLLMの信頼性を定義するいくつかの代表的な要因であると考えている。
我々は,プロプライエタリなMLLMとオープンソースMLLMの両方の機能と限界を理解するのに有用な,14の実証的な発見を発見した。
論文 参考訳(メタデータ) (2024-01-26T18:53:03Z) - How to Bridge the Gap between Modalities: Survey on Multimodal Large Language Model [12.358079352117699]
テキストや画像,音声などを含むマルチモーダルデータの処理にLLMを統合したマルチモーダル大規模言語モデル(MLLM)について検討する。
MLLMはマルチモーダルデータのセマンティックギャップに対処する上で、誤った出力につながる可能性がある。
効果的なモダリティアライメントの実装は、LLMが環境問題に対処し、アクセシビリティを高めるのに役立つ。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。