論文の概要: Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
- arxiv url: http://arxiv.org/abs/2505.02567v3
- Date: Thu, 22 May 2025 15:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:22.241893
- Title: Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
- Title(参考訳): 統一型マルチモーダル理解・生成モデル:進歩・課題・機会
- Authors: Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang,
- Abstract要約: 今後の研究を導くための総合的な調査を行う。
既存の統一モデルについてレビューし、これらを3つの主要なアーキテクチャパラダイムに分類する。
トークン化戦略,クロスモーダルアテンション,データなど,この新興分野に直面する重要な課題について論じる。
- 参考スコア(独自算出の注目度): 23.667293757527723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen remarkable progress in both multimodal understanding models and image generation models. Despite their respective successes, these two domains have evolved independently, leading to distinct architectural paradigms: While autoregressive-based architectures have dominated multimodal understanding, diffusion-based models have become the cornerstone of image generation. Recently, there has been growing interest in developing unified frameworks that integrate these tasks. The emergence of GPT-4o's new capabilities exemplifies this trend, highlighting the potential for unification. However, the architectural differences between the two domains pose significant challenges. To provide a clear overview of current efforts toward unification, we present a comprehensive survey aimed at guiding future research. First, we introduce the foundational concepts and recent advancements in multimodal understanding and text-to-image generation models. Next, we review existing unified models, categorizing them into three main architectural paradigms: diffusion-based, autoregressive-based, and hybrid approaches that fuse autoregressive and diffusion mechanisms. For each category, we analyze the structural designs and innovations introduced by related works. Additionally, we compile datasets and benchmarks tailored for unified models, offering resources for future exploration. Finally, we discuss the key challenges facing this nascent field, including tokenization strategy, cross-modal attention, and data. As this area is still in its early stages, we anticipate rapid advancements and will regularly update this survey. Our goal is to inspire further research and provide a valuable reference for the community. The references associated with this survey are available on GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
- Abstract(参考訳): 近年,マルチモーダル理解モデルと画像生成モデルの両方が顕著に進歩している。
自己回帰型アーキテクチャはマルチモーダル理解を支配してきたが、拡散型モデルは画像生成の基盤となっている。
近年、これらのタスクを統合する統合フレームワークの開発への関心が高まっている。
GPT-4oの新機能の出現はこの傾向を示し、統一の可能性を強調している。
しかし、この2つのドメイン間のアーキテクチャ上の違いは大きな課題を引き起こします。
統一に向けた現在の取り組みの概要を明らかにするため,今後の研究を導くための総合的な調査を報告する。
まず,マルチモーダル理解とテキスト・ツー・イメージ生成モデルの基礎概念と最近の進歩を紹介する。
次に、既存の統一モデルをレビューし、拡散ベース、自己回帰ベース、自己回帰と拡散のメカニズムを融合するハイブリッドアプローチの3つの主要なアーキテクチャパラダイムに分類する。
各カテゴリについて、関連する研究によって導入された構造設計と革新を分析します。
さらに、統合モデルに適したデータセットとベンチマークをコンパイルし、将来の探索のためのリソースを提供します。
最後に、トークン化戦略、クロスモーダルアテンション、データなど、この新興分野に直面する重要な課題について論じる。
この地域はまだ初期段階なので、急激な進展を予想し、定期的に調査を更新する。
私たちのゴールは、さらなる研究を刺激し、コミュニティに貴重なリファレンスを提供することです。
この調査に関連するリファレンスはGitHubで公開されている(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)。
関連論文リスト
- From Task-Specific Models to Unified Systems: A Review of Model Merging Approaches [13.778158813149833]
本稿では、モデルマージ手法の新たな分類法を確立し、異なるアプローチを体系的に比較し、重要な展開の概要を提供する。
この分野での急速な進歩にもかかわらず、最近の進歩と今後の方向性を予測する包括的な分類学と調査はいまだに欠落している。
論文 参考訳(メタデータ) (2025-03-12T02:17:31Z) - Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文 参考訳(メタデータ) (2025-02-18T17:34:04Z) - Explainability for Vision Foundation Models: A Survey [3.570403495760109]
基礎モデルは説明可能性領域において曖昧な位置を占める。
基礎モデルは、その広範な一般化能力と創発的使用によって特徴づけられる。
基礎モデルにXAIを統合する上での現在の研究で直面する課題について論じる。
論文 参考訳(メタデータ) (2025-01-21T15:18:55Z) - Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。
視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。
本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (2024-11-08T17:15:12Z) - Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities [5.22475289121031]
マルチモーダルモデルは、人工知能の今後の進歩にとって重要な要素であると期待されている。
この研究は、新しいアーキテクチャと特定の分類学を訓練することで、一般のマルチモーダルモデルに対する新たな視点を提供する。
論文 参考訳(メタデータ) (2024-06-08T15:30:46Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - Generative AI in Vision: A Survey on Models, Metrics and Applications [0.0]
生成AIモデルは、現実的で多様なデータサンプルの作成を可能にすることで、さまざまな分野に革命をもたらした。
これらのモデルの中で、拡散モデルは高品質な画像、テキスト、オーディオを生成するための強力なアプローチとして現れている。
本稿では,AI拡散モデルとレガシモデルについて概観し,その基礎となる技術,異なる領域にわたる応用,課題について概説する。
論文 参考訳(メタデータ) (2024-02-26T07:47:12Z) - Towards the Unification of Generative and Discriminative Visual
Foundation Model: A Survey [30.528346074194925]
視覚基礎モデル(VFM)はコンピュータビジョンの基盤となる発展の触媒となっている。
本稿では,VFMの重要軌道を概説し,その拡張性と生成タスクの熟練性を強調した。
今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。
論文 参考訳(メタデータ) (2023-12-15T19:17:15Z) - Graph Foundation Models: Concepts, Opportunities and Challenges [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
一般化と適応における基礎モデルの能力は、グラフ機械学習研究者を動機付け、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。