論文の概要: Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
- arxiv url: http://arxiv.org/abs/2502.20172v1
- Date: Thu, 27 Feb 2025 15:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:05.720957
- Title: Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
- Title(参考訳): 画像生成のためのマルチモーダル表現アライメント:テキスト画像インターリーブド制御は想像より簡単
- Authors: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang,
- Abstract要約: 本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。
提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。
本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
- 参考スコア(独自算出の注目度): 38.258453761376586
- License:
- Abstract: The field of advanced text-to-image generation is witnessing the emergence of unified frameworks that integrate powerful text encoders, such as CLIP and T5, with Diffusion Transformer backbones. Although there have been efforts to control output images with additional conditions, like canny and depth map, a comprehensive framework for arbitrary text-image interleaved control is still lacking. This gap is especially evident when attempting to merge concepts or visual elements from multiple images in the generation process. To mitigate the gap, we conducted preliminary experiments showing that large multimodal models (LMMs) offer an effective shared representation space, where image and text can be well-aligned to serve as a condition for external diffusion models. Based on this discovery, we propose Dream Engine, an efficient and unified framework designed for arbitrary text-image interleaved control in image generation models. Building on powerful text-to-image models like SD3.5, we replace the original text-only encoders by incorporating versatile multimodal information encoders such as QwenVL. Our approach utilizes a two-stage training paradigm, consisting of joint text-image alignment and multimodal interleaved instruction tuning. Our experiments demonstrate that this training method is effective, achieving a 0.69 overall score on the GenEval benchmark, and matching the performance of state-of-the-art text-to-image models like SD3.5 and FLUX.
- Abstract(参考訳): 高度なテキスト画像生成の分野は、CLIPやT5といった強力なテキストエンコーダとDiffusion Transformerのバックボーンを統合する統合フレームワークの出現を目撃している。
ダニーや奥行きマップのような追加条件で出力画像を制御する努力はあったが、任意のテキストイメージのインターリーブド制御のための包括的なフレームワークはまだ不足している。
このギャップは、生成プロセスにおいて複数の画像から概念や視覚要素をマージしようとするときに特に顕著である。
このギャップを緩和するために、我々は大規模なマルチモーダルモデル(LMM)が効果的な共有表現空間を提供することを示す予備実験を行った。
この発見に基づいて、画像生成モデルにおける任意のテキストイメージのインターリーブ制御のために設計された効率的で統一されたフレームワークであるDream Engineを提案する。
SD3.5のような強力なテキスト・ツー・イメージモデルに基づいて、QwenVLのような多機能なマルチモーダル情報エンコーダを組み込むことで、元のテキストのみのエンコーダを置き換える。
提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。
実験の結果、このトレーニング手法は、GenEvalベンチマークで0.69点のスコアを獲得し、SD3.5やFLUXのような最先端のテキスト・ツー・イメージモデルの性能を一致させることで有効であることが示された。
関連論文リスト
- UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。
画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。
単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文 参考訳(メタデータ) (2023-11-01T16:12:40Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。