論文の概要: StyO: Stylize Your Face in Only One-Shot
- arxiv url: http://arxiv.org/abs/2303.03231v2
- Date: Tue, 7 Mar 2023 04:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 11:52:05.639128
- Title: StyO: Stylize Your Face in Only One-Shot
- Title(参考訳): styo: 顔をワンショットでスタイリッシュする
- Authors: Bonan Li, Zicheng Zhang, Xuecheng Nie, Congying Han, Yinhan Hu, Tiande
Guo
- Abstract要約: 本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。
このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。
上記の問題を解決するために,新しいStyOモデル,すなわち1ショットで顔をスタイリングする。
- 参考スコア(独自算出の注目度): 8.253458555695767
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper focuses on face stylization with a single artistic target.
Existing works for this task often fail to retain the source content while
achieving geometry variation. Here, we present a novel StyO model, ie. Stylize
the face in only One-shot, to solve the above problem. In particular, StyO
exploits a disentanglement and recombination strategy. It first disentangles
the content and style of source and target images into identifiers, which are
then recombined in a cross manner to derive the stylized face image. In this
way, StyO decomposes complex images into independent and specific attributes,
and simplifies one-shot face stylization as the combination of different
attributes from input images, thus producing results better matching face
geometry of target image and content of source one. StyO is implemented with
latent diffusion models (LDM) and composed of two key modules: 1) Identifier
Disentanglement Learner (IDL) for disentanglement phase. It represents
identifiers as contrastive text prompts, ie. positive and negative
descriptions. And it introduces a novel triple reconstruction loss to fine-tune
the pre-trained LDM for encoding style and content into corresponding
identifiers; 2) Fine-grained Content Controller (FCC) for the recombination
phase. It recombines disentangled identifiers from IDL to form an augmented
text prompt for generating stylized faces. In addition, FCC also constrains the
cross-attention maps of latent and text features to preserve source face
details in results. The extensive evaluation shows that StyO produces
high-quality images on numerous paintings of various styles and outperforms the
current state-of-the-art. Code will be released upon acceptance.
- Abstract(参考訳): 本稿では,1つの芸術的対象による顔のスタイライゼーションに焦点をあてる。
このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。
ここでは,新しいstyoモデルieを提案する。
上記の問題を解決するために、顔をワンショットでスタイリッシュする。
特に、StyOは混乱と再結合戦略を利用する。
まず、ソースとターゲットの画像の内容とスタイルを識別子に切り離し、それを横断的に再結合して、スタイリングされた顔画像を生成する。
このようにして、styoは複雑な画像を独立して特定の属性に分解し、入力画像から異なる属性の組み合わせとしてワンショットのフェイススタイライゼーションを単純化し、対象画像の顔形状とソース画像のコンテンツとのマッチングをより良くする。
StyOは遅延拡散モデル(LDM)で実装され、2つの主要なモジュールから構成される。
1)不整合位相のための識別器非整合学習器(IDL)
識別子をコントラストテキストプロンプトとして表現します。
肯定的かつ否定的な記述。
そして、トレーニング済みのLDMを微調整して、スタイルとコンテンツを対応する識別子に符号化する新しいトリプル再構築損失を導入する。
2) 組換えフェーズ用の細粒度コンテンツコントローラ(FCC)。
IDLから切り離された識別子を再結合し、スタイル化された顔を生成するための拡張テキストプロンプトを形成する。
さらにFCCは、潜在機能とテキスト機能の横断的アテンションマップを制約して、結果のソース顔の詳細を保存している。
StyOは様々なスタイルの絵画で高品質な映像を制作し、現状よりも優れていた。
コードは受理時にリリースされる。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Face Swap via Diffusion Model [4.026688121914668]
本稿では2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。
基本フレームワークは、顔の特徴符号化、多条件生成、顔の塗装の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-03-02T07:02:17Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:48:35Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。