論文の概要: MMGen: Unified Multi-modal Image Generation and Understanding in One Go
- arxiv url: http://arxiv.org/abs/2503.20644v1
- Date: Wed, 26 Mar 2025 15:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:16.258027
- Title: MMGen: Unified Multi-modal Image Generation and Understanding in One Go
- Title(参考訳): MMGen: 統一されたマルチモーダル画像生成と理解を1つにまとめる
- Authors: Jiepeng Wang, Zhaoqing Wang, Hao Pan, Yuan Liu, Dongdong Yu, Changhu Wang, Wenping Wang,
- Abstract要約: 本稿では,複数の生成タスクを単一の拡散モデルに統合する統合フレームワークMMGenを紹介する。
提案手法は,マルチモーダル出力を柔軟にサポートし,単純なモーダルデカップリング戦略とともに,新しい拡散トランスフォーマを開発する。
- 参考スコア(独自算出の注目度): 60.97155790727879
- License:
- Abstract: A unified diffusion framework for multi-modal generation and understanding has the transformative potential to achieve seamless and controllable image diffusion and other cross-modal tasks. In this paper, we introduce MMGen, a unified framework that integrates multiple generative tasks into a single diffusion model. This includes: (1) multi-modal category-conditioned generation, where multi-modal outputs are generated simultaneously through a single inference process, given category information; (2) multi-modal visual understanding, which accurately predicts depth, surface normals, and segmentation maps from RGB images; and (3) multi-modal conditioned generation, which produces corresponding RGB images based on specific modality conditions and other aligned modalities. Our approach develops a novel diffusion transformer that flexibly supports multi-modal output, along with a simple modality-decoupling strategy to unify various tasks. Extensive experiments and applications demonstrate the effectiveness and superiority of MMGen across diverse tasks and conditions, highlighting its potential for applications that require simultaneous generation and understanding.
- Abstract(参考訳): マルチモーダル生成と理解のための統合拡散フレームワークは、シームレスで制御可能な画像拡散や他のクロスモーダルタスクを実現するための変換ポテンシャルを有する。
本稿では,複数の生成タスクを単一の拡散モデルに統合する統合フレームワークMMGenを紹介する。
本発明の課題は,(1)複数モードのカテゴリ条件生成において,与えられたカテゴリ情報である単一推論プロセスを通じて同時に出力されるマルチモーダルなカテゴリ条件生成,(2)RGB画像から深度,表面正規度,セグメンテーションマップを正確に予測するマルチモーダルな視覚理解,(3)特定のモーダル条件とそれに対応するRGB画像を生成するマルチモーダルな条件生成を含む。
提案手法は,多モード出力を柔軟に支持する新しい拡散トランスフォーマーと,様々なタスクを統一するシンプルなモダリティデカップリング戦略を開発する。
広範囲にわたる実験と応用は、様々なタスクや状況におけるMMGenの有効性と優位性を実証し、同時生成と理解を必要とするアプリケーションの可能性を強調している。
関連論文リスト
- Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts [48.214475133206385]
EMMAは、最先端のテキスト・トゥ・イメージ(T2I)拡散モデル ELLA 上に構築されたマルチモーダルプロンプトを受け入れる新しい画像生成モデルである。
元のT2I拡散モデルにおける全てのパラメータを凍結し、いくつかの追加層のみを調整することにより、事前学習されたT2I拡散モデルが秘かにマルチモーダルプロンプトを受け入れることができるという興味深い発見が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T14:26:43Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。