論文の概要: VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
- arxiv url: http://arxiv.org/abs/2412.20800v1
- Date: Mon, 30 Dec 2024 08:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:06.737561
- Title: VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
- Title(参考訳): VMix: クロスアテンション混合制御によるテキスト・画像拡散モデルの改善
- Authors: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He,
- Abstract要約: 拡散モデルはテキストから画像生成の素晴らしい才能を示すが、それでも高い美的イメージを生成できない可能性がある。
プラグイン・アンド・プレイの美学アダプタであるVMix Adapterを提案する。
我々の重要な洞察は、優れた条件制御法を設計することで、既存の拡散モデルの美的提示を強化することである。
- 参考スコア(独自算出の注目度): 8.685610154314459
- License:
- Abstract: While diffusion models show extraordinary talents in text-to-image generation, they may still fail to generate highly aesthetic images. More specifically, there is still a gap between the generated images and the real-world aesthetic images in finer-grained dimensions including color, lighting, composition, etc. In this paper, we propose Cross-Attention Value Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade the quality of generated images while maintaining generality across visual concepts by (1) disentangling the input text prompt into the content description and aesthetic description by the initialization of aesthetic embedding, and (2) integrating aesthetic conditions into the denoising process through value-mixed cross-attention, with the network connected by zero-initialized linear layers. Our key insight is to enhance the aesthetic presentation of existing diffusion models by designing a superior condition control method, all while preserving the image-text alignment. Through our meticulous design, VMix is flexible enough to be applied to community models for better visual performance without retraining. To validate the effectiveness of our method, we conducted extensive experiments, showing that VMix outperforms other state-of-the-art methods and is compatible with other community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation. The project page is https://vmix-diffusion.github.io/VMix/.
- Abstract(参考訳): 拡散モデルはテキストから画像生成の素晴らしい才能を示すが、それでも高い美的イメージを生成できない可能性がある。
具体的には、生成した画像と、色、照明、構成など、よりきめ細かな寸法の現実世界の美的イメージとの間にはまだギャップがある。
本稿では,(1)入力テキストプロンプトをコンテンツ記述と美的記述に分割し,(2)値混合型クロスアテンションにより美的条件をデノナイズプロセスに統合し,ネットワークをゼロ初期化線形層で接続することで,視覚概念全体にわたって汎用性を保ちながら生成画像の品質を向上する,プラグアンドプレイ型美学アダプタであるクロスアテンション値混合制御(VMix)アダプタを提案する。
我々の重要な洞察は、画像テキストアライメントを維持しながら、優れた条件制御法を設計することで、既存の拡散モデルの美的提示を強化することである。
厳密な設計を通じて、VMixはコミュニティモデルに適用できるほど柔軟で、再トレーニングすることなく、より良いビジュアルパフォーマンスを実現しています。
提案手法の有効性を検証するため,我々はVMixが他の最先端手法よりも優れており,画像生成のための他のコミュニティモジュール(LoRA, ControlNet, IPAdapterなど)と互換性があることを示す広範な実験を行った。
プロジェクトページはhttps://vmix-diffusion.github.io/VMix/。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models [18.44432223381586]
近年、ディープニューラルネットワークの一般化を改善するために、画像混合に基づく拡張技術が数多く導入されている。
これらの手法では、2つ以上のランダムに選択された自然画像が混合され、拡張画像を生成する。
DiffuseMixを提案する。DiffuseMixは、拡散モデルを利用してトレーニング画像を再構成する新しいデータ拡張手法である。
論文 参考訳(メタデータ) (2024-04-05T05:31:02Z) - FreePIH: Training-Free Painterly Image Harmonization with Diffusion
Model [19.170302996189335]
我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。
我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。
我々の手法は、代表的基準を大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2023-11-25T04:23:49Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - SMMix: Self-Motivated Image Mixing for Vision Transformers [65.809376136455]
CutMixは視覚変換器(ViT)の性能と一般化能力を決定する重要な拡張戦略である
既存のCutMixの変種は、より一貫性のある混合画像やより正確な混合ラベルを生成することでこの問題に対処している。
本稿では,学習モデルによる画像とラベルの強調を動機づける,効率的かつ効果的な自己運動画像混合法を提案する。
論文 参考訳(メタデータ) (2022-12-26T00:19:39Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - MagicMix: Semantic Mixing with Diffusion Models [85.43291162563652]
セマンティック・ミキシングと呼ばれる2つの異なるセマンティクスをブレンドして新しい概念を創出することを目的とした新しいタスクについて検討する。
我々は、事前訓練されたテキスト条件拡散モデルに基づく解であるMagicMixを提案する。
本手法では,空間マスクや再訓練は必要とせず,新しい物体を高忠実に合成することができる。
論文 参考訳(メタデータ) (2022-10-28T11:07:48Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。