論文の概要: Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models
- arxiv url: http://arxiv.org/abs/2503.01298v2
- Date: Wed, 22 Oct 2025 08:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:04.324077
- Title: Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models
- Title(参考訳): 統一生成モデルにおける思考のマルチモーダルチェインによる画像生成の高度化に向けて
- Authors: Yi Wang, Mushui Liu, Wanggui He, Hanyang Yuan, Longxiang Zhang, Ziwei Huang, Guanghao Zhang, Wenkai Fang, Haoze Jiang, Shengxuming Zhang, Dong She, Jinlong Liu, Weilong Dai, Mingli Song, Hao Jiang, Jie Song,
- Abstract要約: 統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。
実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 52.84391764467939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified generative models have shown remarkable performance in text and image generation. For image synthesis tasks, they adopt straightforward text-to-image (T2I) generation. However, direct T2I generation limits the models in handling complex compositional instructions, which frequently occur in real-world scenarios. Although this issue is vital, existing works mainly focus on improving the basic image generation capability of the models. While such improvements help to some extent, they still fail to adequately resolve the problem. Inspired by Chain of Thought (CoT) solving complex problems step by step, this work aims to introduce CoT into unified generative models to address the challenges of complex image generation that direct T2I generation cannot effectively solve, thereby endowing models with enhanced image generation ability. To achieve this, we first propose Functionality-oriented eXperts (FoXperts), an expert-parallel architecture in our model FoX, which assigns experts by function. FoXperts disentangles potential conflicts in mainstream modality-oriented designs and provides a solid foundation for CoT. When introducing CoT, the first question is how to design it for complex image generation. To this end, we emulate a human-like artistic workflow -- planning, acting, reflection, and correction -- and propose the Multimodal Chain of Thought (MCoT) approach, as the data involves both text and image. To address the subsequent challenge -- designing an effective MCoT training paradigm -- we develop a multi-task joint training scheme that equips the model with all capabilities required for each MCoT step in a disentangled manner. This paradigm avoids the difficulty of collecting consistent multi-step data tuples. Extensive experiments show that FoX consistently outperforms existing unified models on various T2I benchmarks, delivering notable improvements in complex image generation.
- Abstract(参考訳): 統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
画像合成タスクには、簡単なテキスト・ツー・イメージ(T2I)生成を採用する。
しかし、直接T2I生成は、現実世界のシナリオで頻繁に発生する複雑な構成命令を扱う際のモデルを制限する。
この問題は極めて重要であるが、既存の研究は主にモデルの基本画像生成能力の改善に焦点を当てている。
このような改善はある程度役立つが、それでも適切な解決には至っていない。
複雑な問題を段階的に解決するChain of Thought(CoT)によって着想を得たこの研究は、直接T2I生成が効果的に解決できない複雑な画像生成の課題に対処するため、統合された生成モデルにCoTを導入することを目的としている。
これを実現するために,我々はまずFoXモデルのエキスパート並列アーキテクチャであるFoXperts(FoXperts)を提案する。
FoXpertsは、主要なモダリティ指向の設計において潜在的な対立を解消し、CoTの強固な基盤を提供する。
CoTを導入するとき、最初の質問は複雑な画像生成のためにCoTを設計する方法である。
この目的のために、人間のような芸術的ワークフロー -- 計画、行動、リフレクション、修正 -- をエミュレートし、データにはテキストと画像の両方が含まれるため、MCoT(Multimodal Chain of Thought)アプローチを提案する。
その後の課題 - 効果的なMCoTトレーニングパラダイムを設計する -- に対処するため、MCoTの各ステップに必要なすべての機能を備えたモデルをアンタングル的に装備するマルチタスク共同トレーニングスキームを開発しました。
このパラダイムは、一貫性のあるマルチステップデータタプルの収集の難しさを回避する。
大規模な実験により、FoXは様々なT2Iベンチマークで既存の統一モデルより一貫して優れており、複雑な画像生成において顕著に改善されていることが示されている。
関連論文リスト
- Can Generated Images Serve as a Viable Modality for Text-Centric Multimodal Learning? [3.966028515034415]
本研究は,テキスト・トゥ・イメージ(T2I)モデルにより生成した画像が,テキスト中心のタスクにおいて重要な相補的モダリティとして機能するかどうかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-21T07:32:09Z) - Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - Modality-Specialized Synergizers for Interleaved Vision-Language Generalists [45.800383191637785]
ビジョンランゲージ・ジェネリスト(VLG)は、テキストと画像の両方を理解し、生成することができる。
1つの主な制限は、個別のテキストトークンと連続した画像の特徴を同時にモデル化するために、統一アーキテクチャと同じパラメータセットを適用することである。
最近の研究は、モダリティを意識したエキスパートモデルを導入することで、この問題に対処しようとしている。
本稿では,既存のVLGの統一アーキテクチャを効率的に最適化する新しい設計であるMODALITY-SPECIALIZED SynERGIZERS (MOSS)を紹介する。
論文 参考訳(メタデータ) (2024-07-04T03:28:22Z) - EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts [48.214475133206385]
EMMAは、最先端のテキスト・トゥ・イメージ(T2I)拡散モデル ELLA 上に構築されたマルチモーダルプロンプトを受け入れる新しい画像生成モデルである。
元のT2I拡散モデルにおける全てのパラメータを凍結し、いくつかの追加層のみを調整することにより、事前学習されたT2I拡散モデルが秘かにマルチモーダルプロンプトを受け入れることができるという興味深い発見が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T14:26:43Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation [46.085482021301516]
市販のMLLMとT2Iモデルを連携させてマルチモーダル対話システムを構築するためのDialogGenを提案する。
描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。
ダイアログジェネレーションとユーザスタディに関する実験は、他の最先端モデルと比較してダイアログジェネレーションの有効性を実証している。
論文 参考訳(メタデータ) (2024-03-13T18:00:01Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。