論文の概要: Deformable One-shot Face Stylization via DINO Semantic Guidance
- arxiv url: http://arxiv.org/abs/2403.00459v2
- Date: Mon, 4 Mar 2024 10:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 22:00:43.371497
- Title: Deformable One-shot Face Stylization via DINO Semantic Guidance
- Title(参考訳): DINOセマンティック誘導による変形可能なワンショット顔スティル化
- Authors: Yang Zhou and Zichong Chen and Hui Huang
- Abstract要約: 本稿では、外観と構造を同時に考慮したワンショット顔スタイリングの問題に対処する。
従来の単一イメージスタイルの参照から切り離された変形認識顔のスタイリングを探索し、代わりにリアルスタイルのイメージペアを選択する。
- 参考スコア(独自算出の注目度): 12.771707124161665
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses the complex issue of one-shot face stylization, focusing
on the simultaneous consideration of appearance and structure, where previous
methods have fallen short. We explore deformation-aware face stylization that
diverges from traditional single-image style reference, opting for a real-style
image pair instead. The cornerstone of our method is the utilization of a
self-supervised vision transformer, specifically DINO-ViT, to establish a
robust and consistent facial structure representation across both real and
style domains. Our stylization process begins by adapting the StyleGAN
generator to be deformation-aware through the integration of spatial
transformers (STN). We then introduce two innovative constraints for generator
fine-tuning under the guidance of DINO semantics: i) a directional deformation
loss that regulates directional vectors in DINO space, and ii) a relative
structural consistency constraint based on DINO token self-similarities,
ensuring diverse generation. Additionally, style-mixing is employed to align
the color generation with the reference, minimizing inconsistent
correspondences. This framework delivers enhanced deformability for general
one-shot face stylization, achieving notable efficiency with a fine-tuning
duration of approximately 10 minutes. Extensive qualitative and quantitative
comparisons demonstrate our superiority over state-of-the-art one-shot face
stylization methods. Code is available at https://github.com/zichongc/DoesFS
- Abstract(参考訳): 本稿では,従来手法が不足していた外観と構造を同時に考慮したワンショット顔スタイリングの複雑な問題に対処する。
従来の単一イメージスタイルの参照から切り離された変形認識顔のスタイリングを探索し、代わりにリアルスタイルのイメージペアを選択する。
本手法の基盤は,自己教師付き視覚トランスフォーマ(特にdino-vit)を用いて,実領域とスタイル領域をまたいだロバストで一貫性のある顔構造表現を確立することである。
我々のスタイリゼーションプロセスは、空間変換器(STN)の統合によりStyleGANジェネレータを変形に適応させることから始まる。
次に,ディノセマンティクスの指導の下で,生成器の微調整に関する2つの革新的な制約を導入する。
一 ディノ空間における方向ベクトルを規制する方向変形損失、及び
二 DINOトークンの自己相似性に基づく相対的構造的整合性制約であって、多様な世代を確保すること。
さらに、スタイルミキシングを用いて色生成を基準に整列させ、一貫性のない対応を最小化する。
このフレームワークは、一般的なワンショット顔スタイリングの変形性を向上し、微調整時間約10分で顕著な効率を達成する。
広汎な質的および定量的比較は、最先端のワンショット顔スタイリング法よりも優れていることを示す。
コードはhttps://github.com/zichongc/DoesFSで入手できる。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - Latents2Semantics: Leveraging the Latent Space of Generative Models for
Localized Style Manipulation of Face Images [25.82631308991067]
顔画像中の関心領域のスタイル属性の局所的編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を紹介する。
L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習し、選択されたROIの構造保存スタイル編集を可能にする。
複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-12-22T20:06:53Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - StyO: Stylize Your Face in Only One-Shot [8.253458555695767]
本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。
このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。
上記の問題を解決するために,新しいStyOモデル,すなわち1ショットで顔をスタイリングする。
論文 参考訳(メタデータ) (2023-03-06T15:48:33Z) - StyleSwap: Style-Based Generator Empowers Robust Face Swapping [90.05775519962303]
StyleSwapという簡潔で効果的なフレームワークを紹介します。
私たちの中核となる考え方は、スタイルベースのジェネレータを活用して、高忠実で堅牢な顔交換を可能にすることです。
最小限の変更だけで、StyleGAN2アーキテクチャはソースとターゲットの両方から望まれる情報をうまく処理できる。
論文 参考訳(メタデータ) (2022-09-27T16:35:16Z) - Learning Graph Neural Networks for Image Style Transfer [131.73237185888215]
最先端のパラメトリックおよび非パラメトリックなスタイル転送アプローチは、グローバルな統計アライメントによる局所的なスタイルパターンの歪んだり、パッチミスマッチによるアーティファクトを減らしたりする傾向にある。
本稿では,パラメトリック型と非パラメトリック型の両方のスタイライゼーションの欠如を緩和する,新しい半パラメトリック型ニューラルスタイルトランスファーフレームワークについて検討する。
論文 参考訳(メタデータ) (2022-07-24T07:41:31Z) - Styleverse: Towards Identity Stylization across Heterogeneous Domains [70.13327076710269]
異種ドメイン間のIDS(IDentity Stylization)という課題を提案する。
有効な異種ネットワークベースのフレームワークである$Styleverse$を使用し、単一のドメイン認識ジェネレータを使用します。
$Styleverseは、他の最先端の方法と比較して、より忠実なアイデンティティスタイリングを実現する。
論文 参考訳(メタデータ) (2022-03-02T04:23:01Z) - BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation [9.370501805054344]
任意の顔生成のためのBlendGANを提案する。
まず、任意のスタイルの表現を抽出するために、ジェネリックアートデータセット上で自己教師型スタイルエンコーダを訓練する。
さらに、顔とスタイルの表現を暗黙的にブレンドし、任意のスタイル化効果を制御するために、重み付け混合モジュール(WBM)を提案する。
論文 参考訳(メタデータ) (2021-10-22T12:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。