Fugu-MT 論文翻訳(概要): Stitch it in Time: GAN-Based Facial Editing of Real Videos

論文の概要: Stitch it in Time: GAN-Based Facial Editing of Real Videos

arxiv url: http://arxiv.org/abs/2201.08361v2
Date: Fri, 21 Jan 2022 17:28:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-24 11:52:02.645608
Title: Stitch it in Time: GAN-Based Facial Editing of Real Videos
Title（参考訳）: ganベースのリアルビデオ編集ツール「stitch it in time」
Authors: Rotem Tzaban, Ron Mokady, Rinon Gal, Amit H. Bermano, Daniel Cohen-Or
Abstract要約: 本稿では,映像中の顔のセマンティックな編集を行うフレームワークを提案する。提案手法は,有意義な顔操作を行い,高い時間的一貫性を維持し,難易度,高品質な音声ヘッドビデオに適用することができる。
参考スコア（独自算出の注目度）: 38.81306268180105
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability of Generative Adversarial Networks to encode rich semantics within their latent space has been widely adopted for facial image editing. However, replicating their success with videos has proven challenging. Sets of high-quality facial videos are lacking, and working with videos introduces a fundamental barrier to overcome - temporal coherency. We propose that this barrier is largely artificial. The source video is already temporally coherent, and deviations from this state arise in part due to careless treatment of individual components in the editing pipeline. We leverage the natural alignment of StyleGAN and the tendency of neural networks to learn low frequency functions, and demonstrate that they provide a strongly consistent prior. We draw on these insights and propose a framework for semantic editing of faces in videos, demonstrating significant improvements over the current state-of-the-art. Our method produces meaningful face manipulations, maintains a higher degree of temporal consistency, and can be applied to challenging, high quality, talking head videos which current methods struggle with.
Abstract（参考訳）: 潜在空間内でリッチセマンティクスをエンコードする生成的逆ネットワークの能力は、顔画像編集に広く採用されている。しかし、彼らの成功をビデオで再現することは難しい。高品質な顔ビデオのセットは不足しており、ビデオを扱うことは、時間的一貫性を克服する根本的な障壁をもたらす。我々はこの障壁がほとんど人工的であることを提案する。ソースビデオは、すでに時間的に一貫性があり、この状態からの逸脱は、編集パイプライン内の個々のコンポーネントの不注意な処理によって生じる。我々は、StyleGANの自然なアライメントとニューラルネットワークの傾向を利用して低周波関数を学習し、それらが強い一貫した事前を提供することを示す。本稿では,これらの知見に基づいて映像中の顔のセマンティックな編集を行うフレームワークを提案し,現状よりも大幅に改善されていることを示す。本手法は有意義な顔操作を行い,より高い時間的一貫性を保ち,現在の手法が苦しむ挑戦的で高品質な話題のヘッドビデオに適用できる。

関連論文リスト

IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion [12.494492016414503]
既存のモデルでは、編集品質の低下、高い計算コスト、多種多様な編集における顔認証の保存の困難といった課題に直面している。本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルのリッチな潜時空間を活用する新しい顔画像編集フレームワークを提案する。本手法は,ビデオシーケンス全体の時間的一貫性を維持しながら編集時間を80%削減する。
論文参考訳（メタデータ） (2025-01-13T18:08:27Z)
SVFR: A Unified Framework for Generalized Video Face Restoration [86.17060212058452]
顔復元(FR)は画像およびビデオ処理において重要な領域であり、劣化した入力から高品質な肖像画を再構成することに焦点を当てている。本稿では,映像BFR,インペイント,カラー化タスクを統合した汎用映像顔復元タスクを提案する。この研究は、ビデオFRにおける最先端技術を進め、一般化されたビデオ顔の復元のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-01-02T12:51:20Z)
Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。 VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文参考訳（メタデータ） (2024-11-25T15:14:36Z)
Kalman-Inspired Feature Propagation for Video Face Super-Resolution [78.84881180336744]
時間前に安定した顔を維持するための新しい枠組みを導入する。カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。ビデオフレーム間で顔の細部を連続的にキャプチャする手法の有効性を実験により実証した。
論文参考訳（メタデータ） (2024-08-09T17:57:12Z)
GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。 NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文参考訳（メタデータ） (2023-05-01T12:24:09Z)
Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video Encoding [35.18070525015657]
拡散オートエンコーダに基づく新しい顔映像編集フレームワークを提案する。我々のモデルは拡散モデルに基づいており、再構築と編集の両方を同時に行うことができる。
論文参考訳（メタデータ） (2022-12-06T07:41:51Z)
StyleFaceV: Face Video Generation via Decomposing and Recomposing Pretrained StyleGAN3 [43.43545400625567]
そこで我々は,鮮明な動きを持つ高忠実度ID保存顔ビデオを生成するStyleFaceVというフレームワークを提案する。我々の中核となる洞察は、外観を分解し、情報を合成し、それらをStyleGAN3の潜在空間に再分解することで、安定的でダイナミックな結果を生み出すことである。
論文参考訳（メタデータ） (2022-08-16T17:47:03Z)
Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文参考訳（メタデータ） (2022-06-27T06:48:15Z)
UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。本フレームワークは,顔交換と顔再現を同時に行うように設計されている。現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文参考訳（メタデータ） (2021-08-12T10:35:22Z)
Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。 3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文参考訳（メタデータ） (2020-07-03T02:49:20Z)
Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文参考訳（メタデータ） (2020-06-17T23:38:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。