論文の概要: Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation
- arxiv url: http://arxiv.org/abs/2505.05472v2
- Date: Sun, 11 May 2025 18:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 12:10:05.958482
- Title: Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation
- Title(参考訳): Mogao: インターリーブマルチモーダルジェネレーションのためのOmniファンデーションモデル
- Authors: Chao Liao, Liyang Liu, Xun Wang, Zhengxiong Luo, Xinyu Zhang, Wenliang Zhao, Jie Wu, Liang Li, Zhi Tian, Weilin Huang,
- Abstract要約: 我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
- 参考スコア(独自算出の注目度): 54.588082888166504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in unified models for image understanding and generation has been impressive, yet most approaches remain limited to single-modal generation conditioned on multiple modalities. In this paper, we present Mogao, a unified framework that advances this paradigm by enabling interleaved multi-modal generation through a causal approach. Mogao integrates a set of key technical improvements in architecture design, including a deep-fusion design, dual vision encoders, interleaved rotary position embeddings, and multi-modal classifier-free guidance, which allow it to harness the strengths of both autoregressive models for text generation and diffusion models for high-quality image synthesis. These practical improvements also make Mogao particularly effective to process interleaved sequences of text and images arbitrarily. To further unlock the potential of unified models, we introduce an efficient training strategy on a large-scale, in-house dataset specifically curated for joint text and image generation. Extensive experiments show that Mogao not only achieves state-of-the-art performance in multi-modal understanding and text-to-image generation, but also excels in producing high-quality, coherent interleaved outputs. Its emergent capabilities in zero-shot image editing and compositional generation highlight Mogao as a practical omni-modal foundation model, paving the way for future development and scaling the unified multi-modal systems.
- Abstract(参考訳): 画像の理解と生成のための統一モデルの最近の進歩は目覚ましいが、ほとんどのアプローチは、複数のモーダルで条件付けられた単一モーダル生成に限られている。
本稿では,このパラダイムを進化させる統一フレームワークであるMogaoについて,因果的アプローチによるインターリーブ型マルチモーダル生成を実現する。
Mogaoは、Deep-fusionデザイン、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル・クラシファイアフリーガイダンスなどのアーキテクチャ設計における重要な技術的改善を統合し、高品質な画像合成のためのテキスト生成のための自動回帰モデルと拡散モデルの両方の長所を利用することができる。
これらの実践的な改善により、Mogaoはテキストと画像のインターリーブシーケンスを任意に処理するのに特に効果的になる。
統合モデルの可能性をさらに開放するために,共同テキストや画像生成に特化してキュレートされた大規模社内データセット上で,効率的なトレーニング戦略を導入する。
広汎な実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を達成するだけでなく,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れることがわかった。
ゼロショット画像編集と合成生成における創発的な能力は、モガオを実用的オムニモーダル基盤モデルとして強調し、将来の開発と統合マルチモーダルシステムのスケーリングの道を開いた。
関連論文リスト
- Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - MINT: Multi-modal Chain of Thought in Unified Generative Models for Enhanced Image Generation [38.517814177255765]
画像生成の強化のために,MINTを導入し,マルチモーダル・シンキング・オブ・シンキング (MCoT) を生かした,革新的統一的生成モデルを提案する。
本稿では,MCoT学習パラダイムを提案する。このパラダイムは,画像生成に特化して設計されたマルチモーダル思考,推論,リフレクションに対するステップバイステップアプローチである。
MINTは、テキスト・トゥ・イメージ(T2I)と画像・トゥ・テキスト(I2T)タスクの複数のベンチマークで優れたパフォーマンスを示すことが検証されている。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。
我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。
我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文 参考訳(メタデータ) (2024-12-31T05:49:00Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [49.04935506942202]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
マルチモーダル生成PreTraining (mGPT) を初期化することにより、デコーダのみの自己回帰(AR)モデルが、現代の拡散モデルに匹敵する画像生成性能を実現できることを示す。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion
Models [10.744438740060458]
本研究の目的は,テキスト記述を超えて多種多様なモダリティを組み込むことにより,拡散型テキスト・ツー・イメージ(T2I)生成モデルの能力を拡張することである。
そこで我々は,条件のチャネルを3つのタイプに分割することで,DiffBlenderと呼ばれるマルチモーダルT2I拡散モデルを設計する。
DiffBlenderのユニークなアーキテクチャは、新しい入力モダリティの追加を容易にし、条件付き画像生成のためのスケーラブルなフレームワークを開拓する。
論文 参考訳(メタデータ) (2023-05-24T14:31:20Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。