論文の概要: Stitch it in Time: GAN-Based Facial Editing of Real Videos
- arxiv url: http://arxiv.org/abs/2201.08361v2
- Date: Fri, 21 Jan 2022 17:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 11:52:02.645608
- Title: Stitch it in Time: GAN-Based Facial Editing of Real Videos
- Title(参考訳): ganベースのリアルビデオ編集ツール「stitch it in time」
- Authors: Rotem Tzaban, Ron Mokady, Rinon Gal, Amit H. Bermano, Daniel Cohen-Or
- Abstract要約: 本稿では,映像中の顔のセマンティックな編集を行うフレームワークを提案する。
提案手法は,有意義な顔操作を行い,高い時間的一貫性を維持し,難易度,高品質な音声ヘッドビデオに適用することができる。
- 参考スコア(独自算出の注目度): 38.81306268180105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of Generative Adversarial Networks to encode rich semantics
within their latent space has been widely adopted for facial image editing.
However, replicating their success with videos has proven challenging. Sets of
high-quality facial videos are lacking, and working with videos introduces a
fundamental barrier to overcome - temporal coherency. We propose that this
barrier is largely artificial. The source video is already temporally coherent,
and deviations from this state arise in part due to careless treatment of
individual components in the editing pipeline. We leverage the natural
alignment of StyleGAN and the tendency of neural networks to learn low
frequency functions, and demonstrate that they provide a strongly consistent
prior. We draw on these insights and propose a framework for semantic editing
of faces in videos, demonstrating significant improvements over the current
state-of-the-art. Our method produces meaningful face manipulations, maintains
a higher degree of temporal consistency, and can be applied to challenging,
high quality, talking head videos which current methods struggle with.
- Abstract(参考訳): 潜在空間内でリッチセマンティクスをエンコードする生成的逆ネットワークの能力は、顔画像編集に広く採用されている。
しかし、彼らの成功をビデオで再現することは難しい。
高品質な顔ビデオのセットは不足しており、ビデオを扱うことは、時間的一貫性を克服する根本的な障壁をもたらす。
我々はこの障壁がほとんど人工的であることを提案する。
ソースビデオは、すでに時間的に一貫性があり、この状態からの逸脱は、編集パイプライン内の個々のコンポーネントの不注意な処理によって生じる。
我々は、StyleGANの自然なアライメントとニューラルネットワークの傾向を利用して低周波関数を学習し、それらが強い一貫した事前を提供することを示す。
本稿では,これらの知見に基づいて映像中の顔のセマンティックな編集を行うフレームワークを提案し,現状よりも大幅に改善されていることを示す。
本手法は有意義な顔操作を行い,より高い時間的一貫性を保ち,現在の手法が苦しむ挑戦的で高品質な話題のヘッドビデオに適用できる。
関連論文リスト
- IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion [12.494492016414503]
既存のモデルでは、編集品質の低下、高い計算コスト、多種多様な編集における顔認証の保存の困難といった課題に直面している。
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルのリッチな潜時空間を活用する新しい顔画像編集フレームワークを提案する。
本手法は,ビデオシーケンス全体の時間的一貫性を維持しながら編集時間を80%削減する。
論文 参考訳(メタデータ) (2025-01-13T18:08:27Z) - SVFR: A Unified Framework for Generalized Video Face Restoration [86.17060212058452]
顔復元(FR)は画像およびビデオ処理において重要な領域であり、劣化した入力から高品質な肖像画を再構成することに焦点を当てている。
本稿では,映像BFR,インペイント,カラー化タスクを統合した汎用映像顔復元タスクを提案する。
この研究は、ビデオFRにおける最先端技術を進め、一般化されたビデオ顔の復元のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-01-02T12:51:20Z) - Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。
圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。
VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文 参考訳(メタデータ) (2024-11-25T15:14:36Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Diffusion Video Autoencoders: Toward Temporally Consistent Face Video
Editing via Disentangled Video Encoding [35.18070525015657]
拡散オートエンコーダに基づく新しい顔映像編集フレームワークを提案する。
我々のモデルは拡散モデルに基づいており、再構築と編集の両方を同時に行うことができる。
論文 参考訳(メタデータ) (2022-12-06T07:41:51Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z) - Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。
駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。
我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文 参考訳(メタデータ) (2020-06-17T23:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。