論文の概要: Large Multimodal Agents: A Survey
- arxiv url: http://arxiv.org/abs/2402.15116v1
- Date: Fri, 23 Feb 2024 06:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:44:02.731817
- Title: Large Multimodal Agents: A Survey
- Title(参考訳): 大規模マルチモーダルエージェント:調査
- Authors: Junlin Xie and Zhihong Chen and Ruifei Zhang and Xiang Wan and Guanbin
Li
- Abstract要約: 大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
- 参考スコア(独自算出の注目度): 78.81459893884737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved superior performance in powering
text-based AI agents, endowing them with decision-making and reasoning
abilities akin to humans. Concurrently, there is an emerging research trend
focused on extending these LLM-powered AI agents into the multimodal domain.
This extension enables AI agents to interpret and respond to diverse multimodal
user queries, thereby handling more intricate and nuanced tasks. In this paper,
we conduct a systematic review of LLM-driven multimodal agents, which we refer
to as large multimodal agents ( LMAs for short). First, we introduce the
essential components involved in developing LMAs and categorize the current
body of research into four distinct types. Subsequently, we review the
collaborative frameworks integrating multiple LMAs , enhancing collective
efficacy. One of the critical challenges in this field is the diverse
evaluation methods used across existing studies, hindering effective comparison
among different LMAs . Therefore, we compile these evaluation methodologies and
establish a comprehensive framework to bridge the gaps. This framework aims to
standardize evaluations, facilitating more meaningful comparisons. Concluding
our review, we highlight the extensive applications of LMAs and propose
possible future research directions. Our discussion aims to provide valuable
insights and guidelines for future research in this rapidly evolving field. An
up-to-date resource list is available at
https://github.com/jun0wanan/awesome-large-multimodal-agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストベースのAIエージェントをパワーアップし、人間に似た意思決定と推論能力を持つ。
同時に、これらのLLMベースのAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
この拡張により、AIエージェントは多様なマルチモーダルユーザクエリを解釈し、応答し、より複雑でニュアンスなタスクを処理できるようになる。
本稿では,LLM駆動型マルチモーダルエージェントの系統的レビューを行い,これを大規模マルチモーダルエージェント(略してLMA)と呼ぶ。
まず,LMAの開発に係わる重要な要素について紹介し,研究対象を4つの異なるタイプに分類する。
次に,複数のlmasを統合した協調フレームワークをレビューし,協調的有効性を高める。
この分野で重要な課題の1つは、既存の研究で使われている多様な評価方法であり、異なるLMA間の効果的な比較を妨げている。
そこで我々は,これらの評価手法をコンパイルし,ギャップを埋める包括的な枠組みを確立する。
このフレームワークは評価を標準化し、より意味のある比較を促進することを目的としている。
本総説では,LMAの広範な応用を概説し,今後の研究方向性を提案する。
私たちの議論は、この急速に発展する分野における今後の研究に有用な洞察とガイドラインを提供することを目的としています。
最新のリソースリストはhttps://github.com/jun0wanan/awesome-large-multimodal-agentsで入手できる。
関連論文リスト
- Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates [0.0]
本稿では,対話エージェントのアンサンブル内で,大規模言語モデル(LLM)を提唱者として解釈するフレームワークを提案する。
このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
論文 参考訳(メタデータ) (2024-10-07T00:22:07Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - A Survey on Large Language Model based Autonomous Agents [105.2509166861984]
大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。
本稿では,LLMに基づく自律エージェントの分野を総合的な観点から体系的に検討する。
本稿では、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。
論文 参考訳(メタデータ) (2023-08-22T13:30:37Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。