論文の概要: Video2StyleGAN: Disentangling Local and Global Variations in a Video
- arxiv url: http://arxiv.org/abs/2205.13996v1
- Date: Fri, 27 May 2022 14:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 20:51:16.988643
- Title: Video2StyleGAN: Disentangling Local and Global Variations in a Video
- Title(参考訳): Video2StyleGAN: ローカルとグローバルの変動をビデオで遠ざける
- Authors: Rameen Abdal, Peihao Zhu, Niloy J. Mitra, Peter Wonka
- Abstract要約: StyleGANは、顔編集の強力なパラダイムとして登場し、年齢、表現、照明などに対する混乱したコントロールを提供する。
我々は,対象画像の同一性において,運転映像の局所的およびグローバル的位置と表現を再現するために,対象画像と運転映像を撮影するVideo2StyleGANを紹介する。
- 参考スコア(独自算出の注目度): 68.70889857355678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image editing using a pretrained StyleGAN generator has emerged as a powerful
paradigm for facial editing, providing disentangled controls over age,
expression, illumination, etc. However, the approach cannot be directly adopted
for video manipulations. We hypothesize that the main missing ingredient is the
lack of fine-grained and disentangled control over face location, face pose,
and local facial expressions. In this work, we demonstrate that such a
fine-grained control is indeed achievable using pretrained StyleGAN by working
across multiple (latent) spaces (namely, the positional space, the W+ space,
and the S space) and combining the optimization results across the multiple
spaces. Building on this enabling component, we introduce Video2StyleGAN that
takes a target image and driving video(s) to reenact the local and global
locations and expressions from the driving video in the identity of the target
image. We evaluate the effectiveness of our method over multiple challenging
scenarios and demonstrate clear improvements over alternative approaches.
- Abstract(参考訳): 事前訓練されたStyleGANジェネレータを用いた画像編集は、顔編集の強力なパラダイムとして登場し、年齢、表現、照明などの不整合制御を提供する。
しかし、このアプローチは直接ビデオ操作には適用できない。
顔の位置,顔のポーズ,局所的な表情に対するきめ細やかな制御が欠如していることが主な欠点である,という仮説を立てる。
本研究では,複数の(相対的な)空間(つまり位置空間,w+空間,s空間)をまたいで作業することで,事前学習されたスタイルガンを用いて,そのような細粒度制御が実現可能であることを実証する。
この実現可能なコンポーネントに基づいて,対象画像の同一性において,局所的および大域的位置と表現を再現する対象画像と駆動映像(s)を再生するvideo2styleganを導入する。
提案手法の有効性を複数の難易度シナリオで評価し,代替手法に対する明確な改善を示す。
関連論文リスト
- Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。
具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。
形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Grasping the Arrow of Time from the Singularity: Decoding Micromotion in
Low-dimensional Latent Spaces from StyleGAN [105.99762358450633]
顔生成のためのStyleGAN-v2モデルの潜在空間から抽出した低ランク空間で「マイクロモーション」を表現できることを示す。
これは、その潜在的特徴に対するアフィン変換として単純なものとして表すことができる。
局所的な特徴幾何は、ある種類のマイクロモーションに対応し、異なる顔の被写体に整列していることが示される。
論文 参考訳(メタデータ) (2022-04-27T04:38:39Z) - FEAT: Face Editing with Attention [70.89233432407305]
StyleGAN ジェネレータ上に構築し,顔の操作を意図した領域に集中させる手法を提案する。
編集された画像の生成中、アテンションマップは、元の特徴と修正された特徴とのブレンドをガイドするマスクとして機能する。
論文 参考訳(メタデータ) (2022-02-06T06:07:34Z) - Perceptually Validated Precise Local Editing for Facial Action Units
with StyleGAN [3.8149289266694466]
顔のセマンティックな操作に広く用いられているStyleGANに基づくソリューションを構築した。
そこで本研究では,潜在空間における編集を行うための単純な戦略が,特定のアクションユニット間の不要な結合をもたらすことを示す。
23名の被験者による知覚実験により局所的編集法の有効性を検証した。
論文 参考訳(メタデータ) (2021-07-26T12:21:37Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。