論文の概要: MINT: Multi-modal Chain of Thought in Unified Generative Models for Enhanced Image Generation
- arxiv url: http://arxiv.org/abs/2503.01298v1
- Date: Mon, 03 Mar 2025 08:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:12.303284
- Title: MINT: Multi-modal Chain of Thought in Unified Generative Models for Enhanced Image Generation
- Title(参考訳): MINT:画像生成のための統一生成モデルにおける思考のマルチモーダルチェイン
- Authors: Yi Wang, Mushui Liu, Wanggui He, Longxiang Zhang, Ziwei Huang, Guanghao Zhang, Fangxun Shu, Zhong Tao, Dong She, Zhelun Yu, Haoyuan Li, Weilong Dai, Mingli Song, Jie Song, Hao Jiang,
- Abstract要約: 画像生成の強化のために,MINTを導入し,マルチモーダル・シンキング・オブ・シンキング (MCoT) を生かした,革新的統一的生成モデルを提案する。
本稿では,MCoT学習パラダイムを提案する。このパラダイムは,画像生成に特化して設計されたマルチモーダル思考,推論,リフレクションに対するステップバイステップアプローチである。
MINTは、テキスト・トゥ・イメージ(T2I)と画像・トゥ・テキスト(I2T)タスクの複数のベンチマークで優れたパフォーマンスを示すことが検証されている。
- 参考スコア(独自算出の注目度): 38.517814177255765
- License:
- Abstract: Unified generative models have demonstrated extraordinary performance in both text and image generation. However, they tend to underperform when generating intricate images with various interwoven conditions, which is hard to solely rely on straightforward text-to-image generation. In response to this challenge, we introduce MINT, an innovative unified generative model, empowered with native multimodal chain of thought (MCoT) for enhanced image generation for the first time. Firstly, we design Mixture of Transformer Experts (MTXpert), an expert-parallel structure that effectively supports both natural language generation (NLG) and visual capabilities, while avoiding potential modality conflicts that could hinder the full potential of each modality. Building on this, we propose an innovative MCoT training paradigm, a step-by-step approach to multimodal thinking, reasoning, and reflection specifically designed to enhance image generation. This paradigm equips MINT with nuanced, element-wise decoupled alignment and a comprehensive understanding of textual and visual components. Furthermore, it fosters advanced multimodal reasoning and self-reflection, enabling the construction of images that are firmly grounded in the logical relationships between these elements. Notably, MINT has been validated to exhibit superior performance across multiple benchmarks for text-to-image (T2I) and image-to-text (I2T) tasks.
- Abstract(参考訳): 統一生成モデルは、テキスト生成と画像生成の両方において異常な性能を示した。
しかし,テキスト・ツー・イメージ生成にのみ依存する難しさから,複雑な画像を生成する際には性能が低下する傾向にある。
この課題に対応するために,MINTは,画像生成の強化のために,ネイティブなマルチモーダル・チェーン・オブ・シンキング(MCoT)を応用した,革新的な統一的生成モデルである。
まず、自然言語生成(NLG)と視覚能力の両方を効果的にサポートする専門家並列構造であるMTXpertを設計する。
そこで本研究では,MCoT学習パラダイムを提案する。このパラダイムは,画像生成に特化して設計されたマルチモーダル思考,推論,リフレクションに対するステップバイステップアプローチである。
このパラダイムは、MINTにニュアンスがあり、要素的に分離されたアライメントと、テキストおよびビジュアルコンポーネントの包括的な理解を提供する。
さらに、高度なマルチモーダル推論と自己回帰を促進し、これらの要素間の論理的関係にしっかりと根ざした画像の構築を可能にする。
特に、MINTは、テキスト・トゥ・イメージ(T2I)と画像・トゥ・テキスト(I2T)タスクの複数のベンチマークで優れたパフォーマンスを示すことが検証されている。
関連論文リスト
- UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts [48.214475133206385]
EMMAは、最先端のテキスト・トゥ・イメージ(T2I)拡散モデル ELLA 上に構築されたマルチモーダルプロンプトを受け入れる新しい画像生成モデルである。
元のT2I拡散モデルにおける全てのパラメータを凍結し、いくつかの追加層のみを調整することにより、事前学習されたT2I拡散モデルが秘かにマルチモーダルプロンプトを受け入れることができるという興味深い発見が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T14:26:43Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation [46.085482021301516]
市販のMLLMとT2Iモデルを連携させてマルチモーダル対話システムを構築するためのDialogGenを提案する。
描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。
ダイアログジェネレーションとユーザスタディに関する実験は、他の最先端モデルと比較してダイアログジェネレーションの有効性を実証している。
論文 参考訳(メタデータ) (2024-03-13T18:00:01Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。