論文の概要: A Survey on Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2306.13549v1
- Date: Fri, 23 Jun 2023 15:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 12:30:05.751271
- Title: A Survey on Multimodal Large Language Models
- Title(参考訳): マルチモーダル大規模言語モデルに関する調査
- Authors: Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong
Chen
- Abstract要約: マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。
MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
- 参考スコア(独自算出の注目度): 56.754753799607585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Model (MLLM) recently has been a new rising
research hotspot, which uses powerful Large Language Models (LLMs) as a brain
to perform multimodal tasks. The surprising emergent capabilities of MLLM, such
as writing stories based on images and OCR-free math reasoning, are rare in
traditional methods, suggesting a potential path to artificial general
intelligence. In this paper, we aim to trace and summarize the recent progress
of MLLM. First of all, we present the formulation of MLLM and delineate its
related concepts. Then, we discuss the key techniques and applications,
including Multimodal Instruction Tuning (M-IT), Multimodal In-Context Learning
(M-ICL), Multimodal Chain of Thought (M-CoT), and LLM-Aided Visual Reasoning
(LAVR). Finally, we discuss existing challenges and point out promising
research directions. In light of the fact that the era of MLLM has only just
begun, we will keep updating this survey and hope it can inspire more research.
An associated GitHub link collecting the latest papers is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
- Abstract(参考訳): マルチモーダル言語モデル(MLLM)は近年,強力な大規模言語モデル(LLM)を脳として,マルチモーダルタスクを実行するためのホットスポットとして注目されている。
MLLMの驚くべき創発的な能力、例えば画像に基づく物語を書くことや、OCRのない数学推論は、伝統的な手法ではまれであり、人工知能への潜在的な道のりを示唆している。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
まず, mllm の定式化と関連する概念の明確化について述べる。
次に、M-IT(Multimodal Instruction Tuning)、Multimodal In-Context Learning(M-ICL)、Multimodal Chain of Thought(M-CoT)、LLM-Aided Visual Reasoning(LAVR)といった重要な技術と応用について議論する。
最後に,既存の課題を議論し,有望な研究の方向性を指摘する。
MLLMの時代が始まったばかりであるという事実を踏まえ、私たちはこの調査を更新し続け、さらなる研究を促すことを期待します。
最新の論文を収集するGitHubリンクはhttps://github.com/BradyFU/Awesome-Multimodal-Large-Language-Modelsにある。
関連論文リスト
- Can Multimodal Large Language Model Think Analogically? [9.517193263050228]
MLLM(Multimodal Large Language Model)は、その創発的な機能のために最近、かなりの議論を巻き起こした。
説明者としてのtextitMLLM と予測者としての textitMLLM の2つの側面を探索する。
本稿では、MLLMの理解能力を利用して既存のモデルを拡張する統一的なプロンプトテンプレートと手法を提案する。
論文 参考訳(メタデータ) (2024-11-02T16:59:49Z) - A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。