論文の概要: ZePo: Zero-Shot Portrait Stylization with Faster Sampling
- arxiv url: http://arxiv.org/abs/2408.05492v1
- Date: Sat, 10 Aug 2024 08:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:41:36.390068
- Title: ZePo: Zero-Shot Portrait Stylization with Faster Sampling
- Title(参考訳): ZePo: 高速サンプリングによるゼロショットポートレートスティル化
- Authors: Jin Liu, Huaibo Huang, Jie Cao, Ran He,
- Abstract要約: 本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
- 参考スコア(独自算出の注目度): 61.14140480095604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based text-to-image generation models have significantly advanced the field of art content synthesis. However, current portrait stylization methods generally require either model fine-tuning based on examples or the employment of DDIM Inversion to revert images to noise space, both of which substantially decelerate the image generation process. To overcome these limitations, this paper presents an inversion-free portrait stylization framework based on diffusion models that accomplishes content and style feature fusion in merely four sampling steps. We observed that Latent Consistency Models employing consistency distillation can effectively extract representative Consistency Features from noisy images. To blend the Consistency Features extracted from both content and style images, we introduce a Style Enhancement Attention Control technique that meticulously merges content and style features within the attention space of the target image. Moreover, we propose a feature merging strategy to amalgamate redundant features in Consistency Features, thereby reducing the computational load of attention control. Extensive experiments have validated the effectiveness of our proposed framework in enhancing stylization efficiency and fidelity. The code is available at \url{https://github.com/liujin112/ZePo}.
- Abstract(参考訳): 拡散に基づくテキスト・画像生成モデルは、アートコンテンツ合成の分野を著しく進歩させてきた。
しかし、現在のポートレートスタイリング手法では、例に基づくモデルファインチューニングやDDIMインバージョンを用いて画像のノイズ空間への変換を行うのが一般的であり、どちらも画像生成過程を大幅に減速させる。
これらの制約を克服するため,本論文では,コンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーのポートレート・スタイリング・フレームワークを提案する。
我々は, 連続蒸留を用いた潜時一貫性モデルを用いて, 雑音画像から代表的一貫性特徴を効果的に抽出できることを観察した。
コンテンツとスタイル画像の両方から抽出した一貫性特徴をブレンドするために,ターゲット画像の注意領域内のコンテンツとスタイル特徴を慎重にマージするスタイル拡張注意制御手法を提案する。
さらに,一貫性特徴量における冗長な特徴量をマージする機能マージ戦略を提案し,注意制御の計算負荷を低減する。
大規模な実験により,本フレームワークの有効性を検証し,スタイライズ効率と忠実度を向上した。
コードは \url{https://github.com/liujin112/ZePo} で公開されている。
関連論文リスト
- InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - One-Shot Structure-Aware Stylized Image Synthesis [7.418475280387784]
OSASISは構造保存に堅牢な新しい一発スタイリング手法である。
我々は、OSASISが画像の構造から意味を効果的に切り離し、与えられた入力に実装されたコンテンツやスタイルのレベルを制御することができることを示す。
以上の結果から,OSASISは他のスタイリング手法,特にトレーニング中にほとんど遭遇しなかった入力画像よりも優れていた。
論文 参考訳(メタデータ) (2024-02-27T07:42:55Z) - StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models [35.732715025002705]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。
入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。
これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文 参考訳(メタデータ) (2024-01-25T04:53:03Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - STALP: Style Transfer with Auxiliary Limited Pairing [36.23393954839379]
本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。
本研究では,対象画像に対するリアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。
論文 参考訳(メタデータ) (2021-10-20T11:38:41Z) - Parameter-Free Style Projection for Arbitrary Style Transfer [64.06126075460722]
本稿では,パラメータフリー,高速,効果的なコンテンツスタイル変換のための特徴レベル変換手法であるStyle Projectionを提案する。
本稿では、任意の画像スタイルの転送にスタイル投影を利用するリアルタイムフィードフォワードモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T13:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。