論文の概要: Multi-Modal Face Stylization with a Generative Prior
- arxiv url: http://arxiv.org/abs/2305.18009v1
- Date: Mon, 29 May 2023 11:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 15:31:20.536608
- Title: Multi-Modal Face Stylization with a Generative Prior
- Title(参考訳): 生成先行したマルチモーダル顔スティル化
- Authors: Mengtian Li, Yi Dong, Minxuan Lin, Haibin Huang, Pengfei Wan,
Chongyang Ma
- Abstract要約: MMFSはStyleGANの強みを活用することでマルチモーダル顔スタイリングをサポートする。
2段階のトレーニング戦略を導入し、最初の段階でエンコーダをトレーニングし、特徴マップをStyleGANと整列させる。
第2段階では、ネットワーク全体が、スタイル化された顔生成のための芸術的データで微調整される。
- 参考スコア(独自算出の注目度): 23.90331185664637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce a new approach for artistic face stylization.
Despite existing methods achieving impressive results in this task, there is
still room for improvement in generating high-quality stylized faces with
diverse styles and accurate facial reconstruction. Our proposed framework,
MMFS, supports multi-modal face stylization by leveraging the strengths of
StyleGAN and integrates it into an encoder-decoder architecture. Specifically,
we use the mid-resolution and high-resolution layers of StyleGAN as the decoder
to generate high-quality faces, while aligning its low-resolution layer with
the encoder to extract and preserve input facial details. We also introduce a
two-stage training strategy, where we train the encoder in the first stage to
align the feature maps with StyleGAN and enable a faithful reconstruction of
input faces. In the second stage, the entire network is fine-tuned with
artistic data for stylized face generation. To enable the fine-tuned model to
be applied in zero-shot and one-shot stylization tasks, we train an additional
mapping network from the large-scale Contrastive-Language-Image-Pre-training
(CLIP) space to a latent $w+$ space of fine-tuned StyleGAN. Qualitative and
quantitative experiments show that our framework achieves superior face
stylization performance in both one-shot and zero-shot stylization tasks,
outperforming state-of-the-art methods by a large margin.
- Abstract(参考訳): 本稿では,芸術的な顔のスタイライゼーションのための新しいアプローチを提案する。
この課題では既存の手法が印象的な成果を上げているが、多様なスタイルと正確な顔再構成を備えた高品質なスタイリッシュな顔を作るには改善の余地がある。
提案するフレームワークMMFSは,StyleGANの強みを活用し,エンコーダ・デコーダアーキテクチャに統合することで,マルチモーダル顔スタイリングをサポートする。
具体的には、StyleGANの中間分解能層と高分解能層をデコーダとし、その低分解能層をエンコーダと整列させ、入力された顔の詳細を抽出し保存する。
また、第1段階でエンコーダを訓練し、特徴マップをStyleGANと整列させ、入力面の忠実な再構築を可能にする2段階のトレーニング戦略も導入する。
第2段階では、ネットワーク全体をスタイリッシュな顔生成のための芸術データで微調整する。
ゼロショットとワンショットのスタイライゼーションタスクに微調整モデルを適用するために、大規模なコントラスト言語-イメージ-プレトレーニング(clip)空間から、潜在的なw+$の微調整スタイルガン空間まで、追加のマッピングネットワークを訓練する。
定性的かつ定量的な実験により,本フレームワークは1ショットと0ショットの両方のスタイリゼーションタスクにおいて優れた顔スタイリゼーション性能を達成し,最先端の手法を大きなマージンで上回った。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - E2F-Net: Eyes-to-Face Inpainting via StyleGAN Latent Space [4.110419543591102]
我々は、E2F-Net(Eyes-to-Face Network)と呼ばれるGANベースのモデルを提案する。
提案手法は,2つの専用エンコーダを用いて眼周囲領域から同一性および非同一性の特徴を抽出する。
提案手法は,現在の手法を超越して,高品質な顔全体の再構築に成功していることを示す。
論文 参考訳(メタデータ) (2024-03-18T19:11:34Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - Face Cartoonisation For Various Poses Using StyleGAN [0.7673339435080445]
本論文は,顔のマンガ化を実現するための革新的アプローチとして,顔の同一性を保ち,様々なポーズを付加する手法を提案する。
本研究では、画像からポーズ情報とアイデンティティ情報をキャプチャし、StyleGAN潜在空間内に対応する埋め込みを生成するエンコーダを導入する。
目的が漫画化である場合, エンコーダがStyleGAN出力にどのように適応し, アイデンティティをよりよく保存するかを, 広範囲にわたる実験により示す。
論文 参考訳(メタデータ) (2023-09-26T13:10:25Z) - StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces [103.54337984566877]
拡張畳み込みを用いて、モデルパラメータを変更することなく、StyleGANの浅い層の受容場を再スケールする。
これにより、浅い層における固定サイズの小さなフィーチャを、可変解像度に対応できるより大きなものへと拡張することができる。
本手法は,多様な顔操作タスクにおいて,様々な解像度の顔入力を用いて検証する。
論文 参考訳(メタデータ) (2023-03-10T18:59:33Z) - End-to-end Face-swapping via Adaptive Latent Representation Learning [12.364688530047786]
本稿では,高精細・高精細・高精細・高精細・高精細な顔交換のための新しいエンドツーエンド統合フレームワークを提案する。
顔の知覚とブレンドをエンドツーエンドのトレーニングとテストのプロセスに統合することで、野生の顔に高いリアルな顔スワッピングを実現することができる。
論文 参考訳(メタデータ) (2023-03-07T19:16:20Z) - StyleSwap: Style-Based Generator Empowers Robust Face Swapping [90.05775519962303]
StyleSwapという簡潔で効果的なフレームワークを紹介します。
私たちの中核となる考え方は、スタイルベースのジェネレータを活用して、高忠実で堅牢な顔交換を可能にすることです。
最小限の変更だけで、StyleGAN2アーキテクチャはソースとターゲットの両方から望まれる情報をうまく処理できる。
論文 参考訳(メタデータ) (2022-09-27T16:35:16Z) - VToonify: Controllable High-Resolution Portrait Video Style Transfer [103.54337984566877]
制御可能な高解像度のポートレートビデオスタイル転送のための新しいVToonifyフレームワークを提案する。
エンコーダによって抽出されたマルチスケールのコンテンツ特徴に基づいて,StyleGANの中間層と高解像度層を利用して芸術的な肖像画を描画する。
我々のフレームワークは、既存のStyleGANベースの画像トーン化モデルと互換性があり、それらをビデオトーン化に拡張し、色と強度の柔軟なスタイル制御のためにこれらのモデルの魅力的な特徴を継承する。
論文 参考訳(メタデータ) (2022-09-22T17:59:10Z) - Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer [103.54337984566877]
StyleGANの最近の研究は、限られたデータを用いたトランスファーラーニングによる芸術的肖像画生成に高い性能を示している。
本稿では,オリジナルフェイスドメインと拡張アートポートレートドメインの両スタイルを柔軟に制御できる新しいDualStyleGANを提案する。
高品質なポートレートスタイル転送とフレキシブルなスタイル制御において、DualStyleGANが最先端の手法よりも優れていることを示す実験である。
論文 参考訳(メタデータ) (2022-03-24T17:57:11Z) - BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation [9.370501805054344]
任意の顔生成のためのBlendGANを提案する。
まず、任意のスタイルの表現を抽出するために、ジェネリックアートデータセット上で自己教師型スタイルエンコーダを訓練する。
さらに、顔とスタイルの表現を暗黙的にブレンドし、任意のスタイル化効果を制御するために、重み付け混合モジュール(WBM)を提案する。
論文 参考訳(メタデータ) (2021-10-22T12:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。