論文の概要: The (R)Evolution of Multimodal Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2402.12451v1
- Date: Mon, 19 Feb 2024 19:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:37:57.858884
- Title: The (R)Evolution of Multimodal Large Language Models: A Survey
- Title(参考訳): マルチモーダル大規模言語モデルの(r)進化:調査
- Authors: Davide Caffagni, Federico Cocchi, Luca Barsellotti, Nicholas
Moratelli, Sara Sarto, Lorenzo Baraldi, Lorenzo Baraldi, Marcella Cornia,
Rita Cucchiara
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
- 参考スコア(独自算出の注目度): 48.61135328255951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Connecting text and visual modalities plays an essential role in generative
intelligence. For this reason, inspired by the success of large language
models, significant research efforts are being devoted to the development of
Multimodal Large Language Models (MLLMs). These models can seamlessly integrate
visual and textual modalities, both as input and output, while providing a
dialogue-based interface and instruction-following capabilities. In this paper,
we provide a comprehensive review of recent visual-based MLLMs, analyzing their
architectural choices, multimodal alignment strategies, and training
techniques. We also conduct a detailed analysis of these models across a wide
range of tasks, including visual grounding, image generation and editing,
visual understanding, and domain-specific applications. Additionally, we
compile and describe training datasets and evaluation benchmarks, conducting
comparisons among existing models in terms of performance and computational
requirements. Overall, this survey offers a comprehensive overview of the
current state of the art, laying the groundwork for future MLLMs.
- Abstract(参考訳): テキストと視覚的モダリティの接続は、生成的知性において重要な役割を果たす。
このため、大規模言語モデルの成功に触発されて、多モーダル大規模言語モデル(MLLM)の開発に多大な研究努力が注がれている。
これらのモデルは、対話ベースのインタフェースと命令追従機能を提供しながら、入力と出力の両方として視覚的およびテキスト的モダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMの総合的なレビューを行い,そのアーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について分析する。
また、視覚の接地、画像の生成と編集、視覚的理解、ドメイン固有のアプリケーションなど、さまざまなタスクにわたって、これらのモデルの詳細な分析も行います。
さらに,学習データセットと評価ベンチマークをコンパイル・記述し,性能と計算要件の観点から既存モデルの比較を行う。
本調査は総合的に,今後のMLLMの基盤となる技術の現状を概観するものである。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for
Multimodal Large Language Models [60.27894243926344]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。