論文の概要: Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting
- arxiv url: http://arxiv.org/abs/2312.02212v1
- Date: Sun, 3 Dec 2023 06:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:24:35.963364
- Title: Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting
- Title(参考訳): ポートレート拡散:チェーン・オブ・ペインティングによるトレーニングフリーフェイススタイライゼーション
- Authors: Jin Liu, Huaibo Huang, Chao Jin, Ran He
- Abstract要約: 顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 64.43760427752532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face stylization refers to the transformation of a face into a specific
portrait style. However, current methods require the use of example-based
adaptation approaches to fine-tune pre-trained generative models so that they
demand lots of time and storage space and fail to achieve detailed style
transformation. This paper proposes a training-free face stylization framework,
named Portrait Diffusion. This framework leverages off-the-shelf text-to-image
diffusion models, eliminating the need for fine-tuning specific examples.
Specifically, the content and style images are first inverted into latent
codes. Then, during image reconstruction using the corresponding latent code,
the content and style features in the attention space are delicately blended
through a modified self-attention operation called Style Attention Control.
Additionally, a Chain-of-Painting method is proposed for the gradual redrawing
of unsatisfactory areas from rough adjustments to fine-tuning. Extensive
experiments validate the effectiveness of our Portrait Diffusion method and
demonstrate the superiority of Chain-of-Painting in achieving precise face
stylization. Code will be released at
\url{https://github.com/liujin112/PortraitDiffusion}.
- Abstract(参考訳): 顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
しかし、現在の手法では、事前学習された生成モデルにサンプルベースの適応アプローチを使用する必要があるため、多くの時間とストレージ空間を必要とし、詳細なスタイル変換を達成できない。
本稿では,ポートレート拡散という,トレーニングフリーな顔スタイライゼーションフレームワークを提案する。
このフレームワークは、既製のテキストから画像への拡散モデルを活用し、微調整の具体例を必要としない。
具体的には、コンテンツとスタイルイメージは最初に潜在コードに変換される。
そして、対応する潜在コードを用いた画像再構成中に、スタイル注意制御と呼ばれる修正自己注意操作により、注意空間の内容及びスタイル特徴を微妙にブレンドする。
さらに,不満足領域を粗調整から微調整まで段階的に再描画する手法を提案する。
ポートレート拡散法の有効性を検証し, 正確な顔のスタイリングを実現する上でのパターン・オブ・パインティングの優位性を実証した。
コードは \url{https://github.com/liujin112/PortraitDiffusion} でリリースされる。
関連論文リスト
- PS-StyleGAN: Illustrative Portrait Sketching using Attention-Based Style Adaptation [0.0]
ポートレートスケッチでは、抽象的な線と影で実際の顔のアイデンティティ固有の属性をキャプチャする。
本稿では,肖像画合成に適したスタイル転送手法である textbfPortrait Sketching StyleGAN (PS-StyleGAN) を提案する。
StyleGANのセマンティックな$W+$潜在空間を利用してポートレートスケッチを生成します。
論文 参考訳(メタデータ) (2024-08-31T04:22:45Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer [19.355744690301403]
本研究では,事前学習した大規模拡散モデルに基づく新たな芸術的スタイル伝達手法を提案する。
実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-11T09:53:12Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Realtime Fewshot Portrait Stylization Based On Geometric Alignment [32.224973317381426]
本稿では,リアルタイムなモバイルアプリケーションのためのポートレートスタイリング手法を提案する。
それまでの学習に基づくスタイリング手法は、ポートレートドメインとスタイルドメインの間の幾何学的および意味的なギャップに悩まされていた。
人間の顔の属性の幾何学的先行に基づいて,この問題に対処するために幾何学的アライメントを活用することを提案する。
論文 参考訳(メタデータ) (2022-11-28T16:53:19Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Learning Diverse Tone Styles for Image Retouching [73.60013618215328]
本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。
ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。
提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
論文 参考訳(メタデータ) (2022-07-12T09:49:21Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。