論文の概要: Multi-Modal Face Stylization with a Generative Prior
- arxiv url: http://arxiv.org/abs/2305.18009v2
- Date: Mon, 25 Sep 2023 03:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:31:09.248904
- Title: Multi-Modal Face Stylization with a Generative Prior
- Title(参考訳): 生成先行したマルチモーダル顔スティル化
- Authors: Mengtian Li, Yi Dong, Minxuan Lin, Haibin Huang, Pengfei Wan,
Chongyang Ma
- Abstract要約: MMFSはStyleGANの強みを活用することでマルチモーダル顔スタイリングをサポートする。
2段階のトレーニング戦略を導入し、最初の段階でエンコーダをトレーニングし、特徴マップをStyleGANと整列させる。
第2段階では、ネットワーク全体が、スタイル化された顔生成のための芸術的データで微調整される。
- 参考スコア(独自算出の注目度): 27.79677001997915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce a new approach for face stylization. Despite
existing methods achieving impressive results in this task, there is still room
for improvement in generating high-quality artistic faces with diverse styles
and accurate facial reconstruction. Our proposed framework, MMFS, supports
multi-modal face stylization by leveraging the strengths of StyleGAN and
integrates it into an encoder-decoder architecture. Specifically, we use the
mid-resolution and high-resolution layers of StyleGAN as the decoder to
generate high-quality faces, while aligning its low-resolution layer with the
encoder to extract and preserve input facial details. We also introduce a
two-stage training strategy, where we train the encoder in the first stage to
align the feature maps with StyleGAN and enable a faithful reconstruction of
input faces. In the second stage, the entire network is fine-tuned with
artistic data for stylized face generation. To enable the fine-tuned model to
be applied in zero-shot and one-shot stylization tasks, we train an additional
mapping network from the large-scale Contrastive-Language-Image-Pre-training
(CLIP) space to a latent $w+$ space of fine-tuned StyleGAN. Qualitative and
quantitative experiments show that our framework achieves superior performance
in both one-shot and zero-shot face stylization tasks, outperforming
state-of-the-art methods by a large margin.
- Abstract(参考訳): 本稿では,顔のスタイライゼーションのための新しいアプローチを提案する。
この作業で印象的な成果を上げる既存の方法にもかかわらず、多彩なスタイルと正確な顔再構成を備えた高品質な芸術的顔を生成するには、まだ改善の余地がある。
提案するフレームワークMMFSは,StyleGANの強みを活用し,エンコーダ・デコーダアーキテクチャに統合することで,マルチモーダル顔スタイリングをサポートする。
具体的には、StyleGANの中間分解能層と高分解能層をデコーダとし、その低分解能層をエンコーダと整列させ、入力された顔の詳細を抽出し保存する。
また、第1段階でエンコーダを訓練し、特徴マップをStyleGANと整列させ、入力面の忠実な再構築を可能にする2段階のトレーニング戦略も導入する。
第2段階では、ネットワーク全体をスタイリッシュな顔生成のための芸術データで微調整する。
ゼロショットとワンショットのスタイライゼーションタスクに微調整モデルを適用するために、大規模なコントラスト言語-イメージ-プレトレーニング(clip)空間から、潜在的なw+$の微調整スタイルガン空間まで、追加のマッピングネットワークを訓練する。
質的かつ定量的な実験により, 単発およびゼロショットのフェーススタイライゼーションタスクにおいて, 優れた性能を達成し, 最先端手法を大差で上回った。
関連論文リスト
- Emo-Avatar: Efficient Monocular Video Style Avatar through Texture Rendering [64.85782838199427]
遅延ニューラルレンダリングによる効率的なモノトニックビデオスタイルアバター (Emo-Avatar) を提案する。
Emo-Avatarは、スタイルのカスタマイズ時間を、既存の方法と比較して数時間からわずか5分に短縮する。
論文 参考訳(メタデータ) (2024-02-01T18:14:42Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - Face Cartoonisation For Various Poses Using StyleGAN [0.7673339435080445]
本論文は,顔のマンガ化を実現するための革新的アプローチとして,顔の同一性を保ち,様々なポーズを付加する手法を提案する。
本研究では、画像からポーズ情報とアイデンティティ情報をキャプチャし、StyleGAN潜在空間内に対応する埋め込みを生成するエンコーダを導入する。
目的が漫画化である場合, エンコーダがStyleGAN出力にどのように適応し, アイデンティティをよりよく保存するかを, 広範囲にわたる実験により示す。
論文 参考訳(メタデータ) (2023-09-26T13:10:25Z) - Face-PAST: Facial Pose Awareness and Style Transfer Networks [11.046019517265337]
高品質なスタイリング画像を生成しながら、顔の詳細や構造を保存できる顔ポーズ認識とスタイル転送(Face-PAST)ネットワークを提案する。
学習過程はカリキュラムの学習戦略に適応し、生成空間における効率的で柔軟なスタイルの混合を行う。
論文 参考訳(メタデータ) (2023-07-18T07:20:31Z) - StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces [103.54337984566877]
拡張畳み込みを用いて、モデルパラメータを変更することなく、StyleGANの浅い層の受容場を再スケールする。
これにより、浅い層における固定サイズの小さなフィーチャを、可変解像度に対応できるより大きなものへと拡張することができる。
本手法は,多様な顔操作タスクにおいて,様々な解像度の顔入力を用いて検証する。
論文 参考訳(メタデータ) (2023-03-10T18:59:33Z) - End-to-end Face-swapping via Adaptive Latent Representation Learning [12.364688530047786]
本稿では,高精細・高精細・高精細・高精細・高精細な顔交換のための新しいエンドツーエンド統合フレームワークを提案する。
顔の知覚とブレンドをエンドツーエンドのトレーニングとテストのプロセスに統合することで、野生の顔に高いリアルな顔スワッピングを実現することができる。
論文 参考訳(メタデータ) (2023-03-07T19:16:20Z) - StyleSwap: Style-Based Generator Empowers Robust Face Swapping [90.05775519962303]
StyleSwapという簡潔で効果的なフレームワークを紹介します。
私たちの中核となる考え方は、スタイルベースのジェネレータを活用して、高忠実で堅牢な顔交換を可能にすることです。
最小限の変更だけで、StyleGAN2アーキテクチャはソースとターゲットの両方から望まれる情報をうまく処理できる。
論文 参考訳(メタデータ) (2022-09-27T16:35:16Z) - VToonify: Controllable High-Resolution Portrait Video Style Transfer [103.54337984566877]
制御可能な高解像度のポートレートビデオスタイル転送のための新しいVToonifyフレームワークを提案する。
エンコーダによって抽出されたマルチスケールのコンテンツ特徴に基づいて,StyleGANの中間層と高解像度層を利用して芸術的な肖像画を描画する。
我々のフレームワークは、既存のStyleGANベースの画像トーン化モデルと互換性があり、それらをビデオトーン化に拡張し、色と強度の柔軟なスタイル制御のためにこれらのモデルの魅力的な特徴を継承する。
論文 参考訳(メタデータ) (2022-09-22T17:59:10Z) - Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer [103.54337984566877]
StyleGANの最近の研究は、限られたデータを用いたトランスファーラーニングによる芸術的肖像画生成に高い性能を示している。
本稿では,オリジナルフェイスドメインと拡張アートポートレートドメインの両スタイルを柔軟に制御できる新しいDualStyleGANを提案する。
高品質なポートレートスタイル転送とフレキシブルなスタイル制御において、DualStyleGANが最先端の手法よりも優れていることを示す実験である。
論文 参考訳(メタデータ) (2022-03-24T17:57:11Z) - BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation [9.370501805054344]
任意の顔生成のためのBlendGANを提案する。
まず、任意のスタイルの表現を抽出するために、ジェネリックアートデータセット上で自己教師型スタイルエンコーダを訓練する。
さらに、顔とスタイルの表現を暗黙的にブレンドし、任意のスタイル化効果を制御するために、重み付け混合モジュール(WBM)を提案する。
論文 参考訳(メタデータ) (2021-10-22T12:00:27Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。