論文の概要: Large Multimodal Agents: A Survey
- arxiv url: http://arxiv.org/abs/2402.15116v1
- Date: Fri, 23 Feb 2024 06:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:44:02.731817
- Title: Large Multimodal Agents: A Survey
- Title(参考訳): 大規模マルチモーダルエージェント:調査
- Authors: Junlin Xie and Zhihong Chen and Ruifei Zhang and Xiang Wan and Guanbin
Li
- Abstract要約: 大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
- 参考スコア(独自算出の注目度): 78.81459893884737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved superior performance in powering
text-based AI agents, endowing them with decision-making and reasoning
abilities akin to humans. Concurrently, there is an emerging research trend
focused on extending these LLM-powered AI agents into the multimodal domain.
This extension enables AI agents to interpret and respond to diverse multimodal
user queries, thereby handling more intricate and nuanced tasks. In this paper,
we conduct a systematic review of LLM-driven multimodal agents, which we refer
to as large multimodal agents ( LMAs for short). First, we introduce the
essential components involved in developing LMAs and categorize the current
body of research into four distinct types. Subsequently, we review the
collaborative frameworks integrating multiple LMAs , enhancing collective
efficacy. One of the critical challenges in this field is the diverse
evaluation methods used across existing studies, hindering effective comparison
among different LMAs . Therefore, we compile these evaluation methodologies and
establish a comprehensive framework to bridge the gaps. This framework aims to
standardize evaluations, facilitating more meaningful comparisons. Concluding
our review, we highlight the extensive applications of LMAs and propose
possible future research directions. Our discussion aims to provide valuable
insights and guidelines for future research in this rapidly evolving field. An
up-to-date resource list is available at
https://github.com/jun0wanan/awesome-large-multimodal-agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストベースのAIエージェントをパワーアップし、人間に似た意思決定と推論能力を持つ。
同時に、これらのLLMベースのAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
この拡張により、AIエージェントは多様なマルチモーダルユーザクエリを解釈し、応答し、より複雑でニュアンスなタスクを処理できるようになる。
本稿では,LLM駆動型マルチモーダルエージェントの系統的レビューを行い,これを大規模マルチモーダルエージェント(略してLMA)と呼ぶ。
まず,LMAの開発に係わる重要な要素について紹介し,研究対象を4つの異なるタイプに分類する。
次に,複数のlmasを統合した協調フレームワークをレビューし,協調的有効性を高める。
この分野で重要な課題の1つは、既存の研究で使われている多様な評価方法であり、異なるLMA間の効果的な比較を妨げている。
そこで我々は,これらの評価手法をコンパイルし,ギャップを埋める包括的な枠組みを確立する。
このフレームワークは評価を標準化し、より意味のある比較を促進することを目的としている。
本総説では,LMAの広範な応用を概説し,今後の研究方向性を提案する。
私たちの議論は、この急速に発展する分野における今後の研究に有用な洞察とガイドラインを提供することを目的としています。
最新のリソースリストはhttps://github.com/jun0wanan/awesome-large-multimodal-agentsで入手できる。
関連論文リスト
- Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the
Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。
マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文 参考訳(メタデータ) (2024-02-28T12:04:05Z) - Large Language Model based Multi-Agents: A Survey of Progress and
Challenges [46.857697157523994]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - Controlling Large Language Model-based Agents for Large-Scale
Decision-Making: An Actor-Critic Approach [28.477463632107558]
我々はLLaMACと呼ばれるモジュラーフレームワークを開発し、大規模言語モデルにおける幻覚とマルチエージェントシステムにおける協調に対処する。
LLaMACは、人間の脳にあるものに似た値分布をコードし、内部および外部からのフィードバック機構を利用して、モジュール間の協調と反復的推論を促進する。
論文 参考訳(メタデータ) (2023-11-23T10:14:58Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model
Collaboration [88.3753421239906]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - A Survey on Large Language Model based Autonomous Agents [107.8237473711049]
大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。
本稿では,LLMに基づく自律エージェントの分野を総合的な観点から体系的に検討する。
本稿では、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。
論文 参考訳(メタデータ) (2023-08-22T13:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。