論文の概要: One-Shot Face Video Re-enactment using Hybrid Latent Spaces of StyleGAN2
- arxiv url: http://arxiv.org/abs/2302.07848v1
- Date: Wed, 15 Feb 2023 18:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:13:27.574089
- Title: One-Shot Face Video Re-enactment using Hybrid Latent Spaces of StyleGAN2
- Title(参考訳): stylegan2のハイブリッド潜在空間を用いたワンショット映像再生
- Authors: Trevine Oorloff and Yaser Yacoob
- Abstract要約: 本稿では、顔の編集、顔の動きと変形を同時にサポートするエンドツーエンドフレームワークと、映像生成のための顔認証制御を提案する。
高精細な顔映像を10242ドルで再現するために、StyleGAN2ジェネレータを使用します。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent research has progressively overcome the low-resolution
constraint of one-shot face video re-enactment with the help of StyleGAN's
high-fidelity portrait generation, these approaches rely on at least one of the
following: explicit 2D/3D priors, optical flow based warping as motion
descriptors, off-the-shelf encoders, etc., which constrain their performance
(e.g., inconsistent predictions, inability to capture fine facial details and
accessories, poor generalization, artifacts). We propose an end-to-end
framework for simultaneously supporting face attribute edits, facial motions
and deformations, and facial identity control for video generation. It employs
a hybrid latent-space that encodes a given frame into a pair of latents:
Identity latent, $\mathcal{W}_{ID}$, and Facial deformation latent,
$\mathcal{S}_F$, that respectively reside in the $W+$ and $SS$ spaces of
StyleGAN2. Thereby, incorporating the impressive editability-distortion
trade-off of $W+$ and the high disentanglement properties of $SS$. These hybrid
latents employ the StyleGAN2 generator to achieve high-fidelity face video
re-enactment at $1024^2$. Furthermore, the model supports the generation of
realistic re-enactment videos with other latent-based semantic edits (e.g.,
beard, age, make-up, etc.). Qualitative and quantitative analyses performed
against state-of-the-art methods demonstrate the superiority of the proposed
approach.
- Abstract(参考訳): 最近の研究は、StyleGANの高忠実な肖像画生成の助けを借りて、ワンショット映像の再演の低解像度な制約を徐々に克服してきたが、これらのアプローチは以下の少なくとも1つに依存している: 明示的な2D/3D先行、運動記述子としての光フローベースのワープ、オフ・ザ・シェルフエンコーダなど、その性能(例えば、一貫性のない予測、顔の詳細やアクセサリーを捉えることができないこと、一般化の貧弱さ、アーティファクト)。
本稿では,映像生成のための顔属性編集,顔の動きと変形,顔識別制御を同時にサポートするエンドツーエンドフレームワークを提案する。
Identity latent, $\mathcal{W}_{ID}$, Facial deformation latent, $\mathcal{S}_F$は、それぞれStyleGAN2の$W+$と$SS$のスペースに格納される。
これにより、$w+$の編集性障害トレードオフと$ss$の高乱れ性が組み合わさる。
これらのハイブリッド潜水剤は、高忠実度顔ビデオ再生を1024^2$で達成するためにStyleGAN2ジェネレータを使用する。
さらに、モデルは、他の潜在意味編集(例えば、ひげ、年齢、化粧など)を含むリアルな再現ビデオの生成をサポートする。
最先端手法に対する定性的および定量的分析は,提案手法の優位性を示す。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。
圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。
VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文 参考訳(メタデータ) (2024-11-25T15:14:36Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Controllable One-Shot Face Video Synthesis With Semantic Aware Prior [10.968343822308812]
ワンショットトーキングヘッド合成タスクは、ソースイメージを他のポーズと表現にアニメーションすることを目的としており、これは駆動フレームによって予測される。
近年の手法では,スパースキーポイントから推定される運動場を教師なしの方法で学習することにより,ソースから抽出した外観特徴のゆがみに頼っている。
本稿では,豊かな顔の事前情報を活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T19:17:13Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文 参考訳(メタデータ) (2022-03-30T00:33:08Z) - FSGANv2: Improved Subject Agnostic Face Swapping and Reenactment [28.83743270895698]
顔交換と再現のためにFSGAN(Face Swapping GAN)を提案する。
従来とは違って,顔のトレーニングを必要とせず,顔のペアに適用可能な被験者交換方式を提案する。
顔の表情や表情の変化を調整し、単一の画像やビデオシーケンスに適用できる、新しい反復的深層学習に基づく顔の再現手法を導出する。
映像系列に対しては,再現性,デラウネー三角測量,バリ座標に基づく連続的な顔ビューの認識を導入し,顔領域をフェースコンプリートネットワークで処理する。
論文 参考訳(メタデータ) (2022-02-25T21:04:39Z) - Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文 参考訳(メタデータ) (2020-03-29T06:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。