論文の概要: Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques
- arxiv url: http://arxiv.org/abs/2506.04788v1
- Date: Thu, 05 Jun 2025 09:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.624483
- Title: Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques
- Title(参考訳): LLM-Centric Multimodal Fusionに向けて:統合戦略と技術
- Authors: Jisu An, Junseok Lee, Jeoungeun Lee, Yongseok Son,
- Abstract要約: MLLM(Multimodal Large Language Models)は、事前訓練されたLLMと様々なモダリティエンコーダを組み合わせる。
この統合では、異なるモダリティが言語バックボーンにどのように接続するかを体系的に理解する必要があります。
多様なモーダル入力を言語埋め込み空間に変換・整合する手法について検討する。
- 参考スコア(独自算出の注目度): 2.9061423802698565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Multimodal Large Language Models(MLLMs) has transformed the AI landscape. These models combine pre-trained LLMs with various modality encoders. This integration requires a systematic understanding of how different modalities connect to the language backbone. Our survey presents an LLM-centric analysis of current approaches. We examine methods for transforming and aligning diverse modal inputs into the language embedding space. This addresses a significant gap in existing literature. We propose a classification framework for MLLMs based on three key dimensions. First, we examine architectural strategies for modality integration. This includes both the specific integration mechanisms and the fusion level. Second, we categorize representation learning techniques as either joint or coordinate representations. Third, we analyze training paradigms, including training strategies and objective functions. By examining 125 MLLMs developed between 2021 and 2025, we identify emerging patterns in the field. Our taxonomy provides researchers with a structured overview of current integration techniques. These insights aim to guide the development of more robust multimodal integration strategies for future models built on pre-trained foundations.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩により、AIの展望が変化した。
これらのモデルは、事前訓練されたLLMと様々なモダリティエンコーダを組み合わせる。
この統合では、異なるモダリティが言語バックボーンにどのように接続するかを体系的に理解する必要があります。
本調査では,LLMを中心に,現在のアプローチについて分析した。
多様なモーダル入力を言語埋め込み空間に変換・整合する手法について検討する。
これは、既存の文学における大きなギャップに対処する。
MLLMの3つの鍵次元に基づく分類フレームワークを提案する。
まず、モダリティ統合のためのアーキテクチャ戦略を検討する。
これには、特定の統合メカニズムと融合レベルの両方が含まれる。
第2に,表現学習技法を共同表現あるいは座標表現に分類する。
第3に、トレーニング戦略や客観的機能を含むトレーニングパラダイムを分析します。
2021年から2025年の間に開発された125個のMLLMを調べた結果,この分野の出現パターンが明らかになった。
我々の分類学は、研究者に現在の統合技術に関する構造化された概要を提供する。
これらの知見は、事前訓練された基礎の上に構築された将来のモデルのためのより堅牢なマルチモーダル統合戦略の開発を導くことを目的としている。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - From Standalone LLMs to Integrated Intelligence: A Survey of Compound Al Systems [6.284317913684068]
複合アルシステム(CAIS)は、大規模な言語モデル(LLM)をレトリバー、エージェント、ツール、オーケストレータといった外部コンポーネントと統合する新興パラダイムである。
学術と産業の両方で採用が増加しているにもかかわらず、CAISの景観は断片化され、分析、分類、評価のための統一された枠組みが欠如している。
本調査は,次世代のシステムレベルの人工知能を理解し,開発し,推進するための総合的な基盤を研究者や実践者に提供することを目的とする。
論文 参考訳(メタデータ) (2025-06-05T02:34:43Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Advancing Graph Representation Learning with Large Language Models: A
Comprehensive Survey of Techniques [37.60727548905253]
グラフ表現学習(GRL)とLLM(Large Language Models)の統合は、複雑なデータ構造を分析する上で重要な進化である。
このコラボレーションは、LLMの洗練された言語機能を活用して、グラフモデルの文脈的理解と適応性を改善する。
LLMをグラフ領域に統合する研究団体が増えているにもかかわらず、コアコンポーネントとオペレーションを深く分析する包括的なレビューは特に欠落している。
論文 参考訳(メタデータ) (2024-02-04T05:51:14Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Self-Supervised Multimodal Learning: A Survey [23.526389924804207]
マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としている。
高価なヒューマンアノテーションと組み合わせたデータへの大きな依存は、モデルのスケールアップを妨げる。
大規模無意味なデータが野生で利用可能であることを考えると、自己教師型学習は、アノテーションボトルネックを軽減するための魅力的な戦略となっている。
論文 参考訳(メタデータ) (2023-03-31T16:11:56Z) - Multimodality in Meta-Learning: A Comprehensive Survey [34.69292359136745]
このサーベイは、マルチモーダリティに基づくメタラーニングの展望を概観する。
我々はまず,メタラーニングとマルチモーダリティの定義と,この成長分野における研究課題を定式化する。
そこで我々は,マルチモーダルタスクと組み合わせた典型的なメタ学習アルゴリズムを体系的に議論する新しい分類法を提案する。
論文 参考訳(メタデータ) (2021-09-28T09:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。