論文の概要: ZePo: Zero-Shot Portrait Stylization with Faster Sampling
- arxiv url: http://arxiv.org/abs/2408.05492v1
- Date: Sat, 10 Aug 2024 08:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:41:36.390068
- Title: ZePo: Zero-Shot Portrait Stylization with Faster Sampling
- Title(参考訳): ZePo: 高速サンプリングによるゼロショットポートレートスティル化
- Authors: Jin Liu, Huaibo Huang, Jie Cao, Ran He,
- Abstract要約: 本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
- 参考スコア(独自算出の注目度): 61.14140480095604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based text-to-image generation models have significantly advanced the field of art content synthesis. However, current portrait stylization methods generally require either model fine-tuning based on examples or the employment of DDIM Inversion to revert images to noise space, both of which substantially decelerate the image generation process. To overcome these limitations, this paper presents an inversion-free portrait stylization framework based on diffusion models that accomplishes content and style feature fusion in merely four sampling steps. We observed that Latent Consistency Models employing consistency distillation can effectively extract representative Consistency Features from noisy images. To blend the Consistency Features extracted from both content and style images, we introduce a Style Enhancement Attention Control technique that meticulously merges content and style features within the attention space of the target image. Moreover, we propose a feature merging strategy to amalgamate redundant features in Consistency Features, thereby reducing the computational load of attention control. Extensive experiments have validated the effectiveness of our proposed framework in enhancing stylization efficiency and fidelity. The code is available at \url{https://github.com/liujin112/ZePo}.
- Abstract(参考訳): 拡散に基づくテキスト・画像生成モデルは、アートコンテンツ合成の分野を著しく進歩させてきた。
しかし、現在のポートレートスタイリング手法では、例に基づくモデルファインチューニングやDDIMインバージョンを用いて画像のノイズ空間への変換を行うのが一般的であり、どちらも画像生成過程を大幅に減速させる。
これらの制約を克服するため,本論文では,コンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーのポートレート・スタイリング・フレームワークを提案する。
我々は, 連続蒸留を用いた潜時一貫性モデルを用いて, 雑音画像から代表的一貫性特徴を効果的に抽出できることを観察した。
コンテンツとスタイル画像の両方から抽出した一貫性特徴をブレンドするために,ターゲット画像の注意領域内のコンテンツとスタイル特徴を慎重にマージするスタイル拡張注意制御手法を提案する。
さらに,一貫性特徴量における冗長な特徴量をマージする機能マージ戦略を提案し,注意制御の計算負荷を低減する。
大規模な実験により,本フレームワークの有効性を検証し,スタイライズ効率と忠実度を向上した。
コードは \url{https://github.com/liujin112/ZePo} で公開されている。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - MagicStyle: Portrait Stylization Based on Reference Image [0.562479170374811]
そこで我々は,MagicStyleと呼ばれるポートレートに特化して,拡散モデルに基づく参照画像スタイリング手法を提案する。
Cフェーズは、DDIMインバージョンをコンテンツイメージとスタイルイメージとで別々に実行し、インバージョンプロセス中に両方の画像の自己アテンションクエリ、キーと値の特徴を格納するリバースデノナイズ処理を含む。
FFFフェーズは、事前記憶された特徴クエリ、キー、値からのテクスチャと色情報を、よく設計された特徴融合注意(FFA)に基づいて拡散生成プロセスに統合する。
論文 参考訳(メタデータ) (2024-09-12T15:51:09Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models [35.732715025002705]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。
入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。
これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文 参考訳(メタデータ) (2024-01-25T04:53:03Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。