Fugu-MT 論文翻訳(概要): Multi-Modal Face Stylization with a Generative Prior

論文の概要: Multi-Modal Face Stylization with a Generative Prior

arxiv url: http://arxiv.org/abs/2305.18009v2
Date: Mon, 25 Sep 2023 03:29:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 02:31:09.248904
Title: Multi-Modal Face Stylization with a Generative Prior
Title（参考訳）: 生成先行したマルチモーダル顔スティル化
Authors: Mengtian Li, Yi Dong, Minxuan Lin, Haibin Huang, Pengfei Wan, Chongyang Ma
Abstract要約: MMFSはStyleGANの強みを活用することでマルチモーダル顔スタイリングをサポートする。 2段階のトレーニング戦略を導入し、最初の段階でエンコーダをトレーニングし、特徴マップをStyleGANと整列させる。第2段階では、ネットワーク全体が、スタイル化された顔生成のための芸術的データで微調整される。
参考スコア（独自算出の注目度）: 27.79677001997915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we introduce a new approach for face stylization. Despite existing methods achieving impressive results in this task, there is still room for improvement in generating high-quality artistic faces with diverse styles and accurate facial reconstruction. Our proposed framework, MMFS, supports multi-modal face stylization by leveraging the strengths of StyleGAN and integrates it into an encoder-decoder architecture. Specifically, we use the mid-resolution and high-resolution layers of StyleGAN as the decoder to generate high-quality faces, while aligning its low-resolution layer with the encoder to extract and preserve input facial details. We also introduce a two-stage training strategy, where we train the encoder in the first stage to align the feature maps with StyleGAN and enable a faithful reconstruction of input faces. In the second stage, the entire network is fine-tuned with artistic data for stylized face generation. To enable the fine-tuned model to be applied in zero-shot and one-shot stylization tasks, we train an additional mapping network from the large-scale Contrastive-Language-Image-Pre-training (CLIP) space to a latent $w+$ space of fine-tuned StyleGAN. Qualitative and quantitative experiments show that our framework achieves superior performance in both one-shot and zero-shot face stylization tasks, outperforming state-of-the-art methods by a large margin.
Abstract（参考訳）: 本稿では,顔のスタイライゼーションのための新しいアプローチを提案する。この作業で印象的な成果を上げる既存の方法にもかかわらず、多彩なスタイルと正確な顔再構成を備えた高品質な芸術的顔を生成するには、まだ改善の余地がある。提案するフレームワークMMFSは,StyleGANの強みを活用し,エンコーダ・デコーダアーキテクチャに統合することで,マルチモーダル顔スタイリングをサポートする。具体的には、StyleGANの中間分解能層と高分解能層をデコーダとし、その低分解能層をエンコーダと整列させ、入力された顔の詳細を抽出し保存する。また、第1段階でエンコーダを訓練し、特徴マップをStyleGANと整列させ、入力面の忠実な再構築を可能にする2段階のトレーニング戦略も導入する。第2段階では、ネットワーク全体をスタイリッシュな顔生成のための芸術データで微調整する。ゼロショットとワンショットのスタイライゼーションタスクに微調整モデルを適用するために、大規模なコントラスト言語-イメージ-プレトレーニング(clip)空間から、潜在的なw+$の微調整スタイルガン空間まで、追加のマッピングネットワークを訓練する。質的かつ定量的な実験により, 単発およびゼロショットのフェーススタイライゼーションタスクにおいて, 優れた性能を達成し, 最先端手法を大差で上回った。

関連論文リスト

Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation [66.43387826787243]
Ar2Canは、マルチヒューマンジェネレーションのためのアイデンティティレンダリングから空間計画を切り離す新しいフレームワークである。アーキテクトモジュールは構造化されたレイアウトを予測し、各人がどこに現れるかを指定する。アーティストモジュールは、空間的に接地された顔マッチング報酬によってガイドされたイメージを合成する。
論文参考訳（メタデータ） (2025-11-27T18:45:23Z)
Advancing Facial Stylization through Semantic Preservation Constraint and Pseudo-Paired Supervision [3.4228848885035092]
これらの問題は、スタイリゼーション中にジェネレータのセマンティックシフトを無視することに起因すると我々は主張する。意味的保存制約と擬似ペア付き監視を統合した顔のスタイリング手法を提案する。顔のスタイリゼーションを基盤として,より柔軟なマルチモーダルおよび参照誘導型スタイリゼーションを実現する。
論文参考訳（メタデータ） (2025-06-27T08:44:31Z)
Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-03T08:36:16Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-07-08T02:00:17Z)
E2F-Net: Eyes-to-Face Inpainting via StyleGAN Latent Space [4.110419543591102]
我々は、E2F-Net(Eyes-to-Face Network)と呼ばれるGANベースのモデルを提案する。提案手法は,2つの専用エンコーダを用いて眼周囲領域から同一性および非同一性の特徴を抽出する。提案手法は,現在の手法を超越して,高品質な顔全体の再構築に成功していることを示す。
論文参考訳（メタデータ） (2024-03-18T19:11:34Z)
High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文参考訳（メタデータ） (2023-12-17T23:22:37Z)
Face Cartoonisation For Various Poses Using StyleGAN [0.7673339435080445]
本論文は,顔のマンガ化を実現するための革新的アプローチとして,顔の同一性を保ち,様々なポーズを付加する手法を提案する。本研究では、画像からポーズ情報とアイデンティティ情報をキャプチャし、StyleGAN潜在空間内に対応する埋め込みを生成するエンコーダを導入する。目的が漫画化である場合, エンコーダがStyleGAN出力にどのように適応し, アイデンティティをよりよく保存するかを, 広範囲にわたる実験により示す。
論文参考訳（メタデータ） (2023-09-26T13:10:25Z)
StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces [103.54337984566877]
拡張畳み込みを用いて、モデルパラメータを変更することなく、StyleGANの浅い層の受容場を再スケールする。これにより、浅い層における固定サイズの小さなフィーチャを、可変解像度に対応できるより大きなものへと拡張することができる。本手法は,多様な顔操作タスクにおいて,様々な解像度の顔入力を用いて検証する。
論文参考訳（メタデータ） (2023-03-10T18:59:33Z)
End-to-end Face-swapping via Adaptive Latent Representation Learning [12.364688530047786]
本稿では,高精細・高精細・高精細・高精細・高精細な顔交換のための新しいエンドツーエンド統合フレームワークを提案する。顔の知覚とブレンドをエンドツーエンドのトレーニングとテストのプロセスに統合することで、野生の顔に高いリアルな顔スワッピングを実現することができる。
論文参考訳（メタデータ） (2023-03-07T19:16:20Z)
StyleSwap: Style-Based Generator Empowers Robust Face Swapping [90.05775519962303]
StyleSwapという簡潔で効果的なフレームワークを紹介します。私たちの中核となる考え方は、スタイルベースのジェネレータを活用して、高忠実で堅牢な顔交換を可能にすることです。最小限の変更だけで、StyleGAN2アーキテクチャはソースとターゲットの両方から望まれる情報をうまく処理できる。
論文参考訳（メタデータ） (2022-09-27T16:35:16Z)
VToonify: Controllable High-Resolution Portrait Video Style Transfer [103.54337984566877]
制御可能な高解像度のポートレートビデオスタイル転送のための新しいVToonifyフレームワークを提案する。エンコーダによって抽出されたマルチスケールのコンテンツ特徴に基づいて,StyleGANの中間層と高解像度層を利用して芸術的な肖像画を描画する。我々のフレームワークは、既存のStyleGANベースの画像トーン化モデルと互換性があり、それらをビデオトーン化に拡張し、色と強度の柔軟なスタイル制御のためにこれらのモデルの魅力的な特徴を継承する。
論文参考訳（メタデータ） (2022-09-22T17:59:10Z)
Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer [103.54337984566877]
StyleGANの最近の研究は、限られたデータを用いたトランスファーラーニングによる芸術的肖像画生成に高い性能を示している。本稿では,オリジナルフェイスドメインと拡張アートポートレートドメインの両スタイルを柔軟に制御できる新しいDualStyleGANを提案する。高品質なポートレートスタイル転送とフレキシブルなスタイル制御において、DualStyleGANが最先端の手法よりも優れていることを示す実験である。
論文参考訳（メタデータ） (2022-03-24T17:57:11Z)
BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation [9.370501805054344]
任意の顔生成のためのBlendGANを提案する。まず、任意のスタイルの表現を抽出するために、ジェネリックアートデータセット上で自己教師型スタイルエンコーダを訓練する。さらに、顔とスタイルの表現を暗黙的にブレンドし、任意のスタイル化効果を制御するために、重み付け混合モジュール(WBM)を提案する。
論文参考訳（メタデータ） (2021-10-22T12:00:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。