論文の概要: Video2StyleGAN: Encoding Video in Latent Space for Manipulation
- arxiv url: http://arxiv.org/abs/2206.13078v1
- Date: Mon, 27 Jun 2022 06:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 02:15:20.704150
- Title: Video2StyleGAN: Encoding Video in Latent Space for Manipulation
- Title(参考訳): Video2StyleGAN:ラテントスペースで動画をエンコードして操作
- Authors: Jiyang Yu, Jingen Liu, Jing Huang, Wei Zhang, Tao Mei
- Abstract要約: 本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
- 参考スコア(独自算出の注目度): 63.03250800510085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent works have been proposed for face image editing by leveraging the
latent space of pretrained GANs. However, few attempts have been made to
directly apply them to videos, because 1) they do not guarantee temporal
consistency, 2) their application is limited by their processing speed on
videos, and 3) they cannot accurately encode details of face motion and
expression. To this end, we propose a novel network to encode face videos into
the latent space of StyleGAN for semantic face video manipulation. Based on the
vision transformer, our network reuses the high-resolution portion of the
latent vector to enforce temporal consistency. To capture subtle face motions
and expressions, we design novel losses that involve sparse facial landmarks
and dense 3D face mesh. We have thoroughly evaluated our approach and
successfully demonstrated its application to various face video manipulations.
Particularly, we propose a novel network for pose/expression control in a 3D
coordinate system. Both qualitative and quantitative results have shown that
our approach can significantly outperform existing single image methods, while
achieving real-time (66 fps) speed.
- Abstract(参考訳): 事前訓練されたGANの潜伏空間を利用した顔画像編集のための最近の多くの研究が提案されている。
しかし、ビデオに直接適用する試みはほとんど行われていない。
1) 時間的一貫性を保証しない。
2)ビデオの処理速度に制限がある。
3) 顔の動きや表情の詳細を正確にエンコードすることはできない。
そこで本研究では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
視覚トランスフォーマに基づいて,潜在ベクトルの高分解能部分を再利用し,時間的一貫性を実現する。
微妙な顔の動きや表情を捉えるために、顔のランドマークや密集した3d顔メッシュなど新しい損失をデザインする。
提案手法を徹底的に評価し,様々な顔映像操作への応用を実証した。
特に,3次元座標系におけるポーズ/表現制御のための新しいネットワークを提案する。
定性的かつ定量的な結果から,本手法は実時間(66 fps)の速度を達成しつつ,既存の単一画像法よりも大幅に優れることが示された。
関連論文リスト
- Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。
我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。
顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文 参考訳(メタデータ) (2024-08-23T13:13:24Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Stitch it in Time: GAN-Based Facial Editing of Real Videos [38.81306268180105]
本稿では,映像中の顔のセマンティックな編集を行うフレームワークを提案する。
提案手法は,有意義な顔操作を行い,高い時間的一貫性を維持し,難易度,高品質な音声ヘッドビデオに適用することができる。
論文 参考訳(メタデータ) (2022-01-20T18:48:20Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。
駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。
我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文 参考訳(メタデータ) (2020-06-17T23:38:37Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。