論文の概要: Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques
- arxiv url: http://arxiv.org/abs/2506.04788v1
- Date: Thu, 05 Jun 2025 09:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.624483
- Title: Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques
- Title(参考訳): LLM-Centric Multimodal Fusionに向けて:統合戦略と技術
- Authors: Jisu An, Junseok Lee, Jeoungeun Lee, Yongseok Son,
- Abstract要約: MLLM(Multimodal Large Language Models)は、事前訓練されたLLMと様々なモダリティエンコーダを組み合わせる。
この統合では、異なるモダリティが言語バックボーンにどのように接続するかを体系的に理解する必要があります。
多様なモーダル入力を言語埋め込み空間に変換・整合する手法について検討する。
- 参考スコア(独自算出の注目度): 2.9061423802698565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Multimodal Large Language Models(MLLMs) has transformed the AI landscape. These models combine pre-trained LLMs with various modality encoders. This integration requires a systematic understanding of how different modalities connect to the language backbone. Our survey presents an LLM-centric analysis of current approaches. We examine methods for transforming and aligning diverse modal inputs into the language embedding space. This addresses a significant gap in existing literature. We propose a classification framework for MLLMs based on three key dimensions. First, we examine architectural strategies for modality integration. This includes both the specific integration mechanisms and the fusion level. Second, we categorize representation learning techniques as either joint or coordinate representations. Third, we analyze training paradigms, including training strategies and objective functions. By examining 125 MLLMs developed between 2021 and 2025, we identify emerging patterns in the field. Our taxonomy provides researchers with a structured overview of current integration techniques. These insights aim to guide the development of more robust multimodal integration strategies for future models built on pre-trained foundations.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩により、AIの展望が変化した。
これらのモデルは、事前訓練されたLLMと様々なモダリティエンコーダを組み合わせる。
この統合では、異なるモダリティが言語バックボーンにどのように接続するかを体系的に理解する必要があります。
本調査では,LLMを中心に,現在のアプローチについて分析した。
多様なモーダル入力を言語埋め込み空間に変換・整合する手法について検討する。
これは、既存の文学における大きなギャップに対処する。
MLLMの3つの鍵次元に基づく分類フレームワークを提案する。
まず、モダリティ統合のためのアーキテクチャ戦略を検討する。
これには、特定の統合メカニズムと融合レベルの両方が含まれる。
第2に,表現学習技法を共同表現あるいは座標表現に分類する。
第3に、トレーニング戦略や客観的機能を含むトレーニングパラダイムを分析します。
2021年から2025年の間に開発された125個のMLLMを調べた結果,この分野の出現パターンが明らかになった。
我々の分類学は、研究者に現在の統合技術に関する構造化された概要を提供する。
これらの知見は、事前訓練された基礎の上に構築された将来のモデルのためのより堅牢なマルチモーダル統合戦略の開発を導くことを目的としている。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - Advancing Graph Representation Learning with Large Language Models: A
Comprehensive Survey of Techniques [37.60727548905253]
グラフ表現学習(GRL)とLLM(Large Language Models)の統合は、複雑なデータ構造を分析する上で重要な進化である。
このコラボレーションは、LLMの洗練された言語機能を活用して、グラフモデルの文脈的理解と適応性を改善する。
LLMをグラフ領域に統合する研究団体が増えているにもかかわらず、コアコンポーネントとオペレーションを深く分析する包括的なレビューは特に欠落している。
論文 参考訳(メタデータ) (2024-02-04T05:51:14Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Self-Supervised Multimodal Learning: A Survey [23.526389924804207]
マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としている。
高価なヒューマンアノテーションと組み合わせたデータへの大きな依存は、モデルのスケールアップを妨げる。
大規模無意味なデータが野生で利用可能であることを考えると、自己教師型学習は、アノテーションボトルネックを軽減するための魅力的な戦略となっている。
論文 参考訳(メタデータ) (2023-03-31T16:11:56Z) - Multimodality in Meta-Learning: A Comprehensive Survey [34.69292359136745]
このサーベイは、マルチモーダリティに基づくメタラーニングの展望を概観する。
我々はまず,メタラーニングとマルチモーダリティの定義と,この成長分野における研究課題を定式化する。
そこで我々は,マルチモーダルタスクと組み合わせた典型的なメタ学習アルゴリズムを体系的に議論する新しい分類法を提案する。
論文 参考訳(メタデータ) (2021-09-28T09:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。