論文の概要: RIGID: Recurrent GAN Inversion and Editing of Real Face Videos
- arxiv url: http://arxiv.org/abs/2308.06097v1
- Date: Fri, 11 Aug 2023 12:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:03:50.042979
- Title: RIGID: Recurrent GAN Inversion and Editing of Real Face Videos
- Title(参考訳): RIGID: GANインバージョンとリアルフェイスビデオの編集を繰り返す
- Authors: Yangyang Xu, Shengfeng He, Kwan-Yee K. Wong, Ping Luo
- Abstract要約: GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
- 参考スコア(独自算出の注目度): 64.33630951416447
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: GAN inversion is indispensable for applying the powerful editability of GAN
to real images. However, existing methods invert video frames individually
often leading to undesired inconsistent results over time. In this paper, we
propose a unified recurrent framework, named \textbf{R}ecurrent v\textbf{I}deo
\textbf{G}AN \textbf{I}nversion and e\textbf{D}iting (RIGID), to explicitly and
simultaneously enforce temporally coherent GAN inversion and facial editing of
real videos. Our approach models the temporal relations between current and
previous frames from three aspects. To enable a faithful real video
reconstruction, we first maximize the inversion fidelity and consistency by
learning a temporal compensated latent code. Second, we observe incoherent
noises lie in the high-frequency domain that can be disentangled from the
latent space. Third, to remove the inconsistency after attribute manipulation,
we propose an \textit{in-between frame composition constraint} such that the
arbitrary frame must be a direct composite of its neighboring frames. Our
unified framework learns the inherent coherence between input frames in an
end-to-end manner, and therefore it is agnostic to a specific attribute and can
be applied to arbitrary editing of the same video without re-training.
Extensive experiments demonstrate that RIGID outperforms state-of-the-art
methods qualitatively and quantitatively in both inversion and editing tasks.
The deliverables can be found in \url{https://cnnlstm.github.io/RIGID}
- Abstract(参考訳): GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
しかし、ビデオフレームを個別に反転させる既存の手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
本稿では,実映像の時間的コヒーレントなganインバージョンと顔編集を明示的かつ同時に実施するための統一的リカレントフレームワーク, \textbf{r}ecurrent v\textbf{i}deo \textbf{g}an \textbf{i}nversionおよびe\textbf{d}iting(rigid)を提案する。
提案手法は,現在フレームと前フレームの時間関係を3つの側面からモデル化する。
忠実な実映像再構成を実現するため,まず時間補償潜時符号を学習し,逆の忠実度と一貫性を最大化する。
第2に,潜時空間から分離できる高周波領域に非一貫性雑音が存在することを観測する。
第3に,属性操作後に不整合を取り除くために,任意のフレームが隣接するフレームの直接合成でなければならないようなフレーム構成制約を提案する。
統一されたフレームワークは、入力フレーム間の固有の一貫性をエンドツーエンドで学習するので、特定の属性に依存せず、再トレーニングすることなく同じビデオの任意の編集に適用することができる。
大規模な実験により、RIGIDはインバージョンタスクと編集タスクの両方において、定性的かつ定量的に最先端の手法より優れていることが示された。
成果物は \url{https://cnnlstm.github.io/RIGID} で確認できる。
関連論文リスト
- Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video
Translation [21.815083817914843]
我々はtextitLatentWarp というゼロショット動画翻訳フレームワークを提案する。
我々のアプローチは単純で、クエリトークンの時間的一貫性を制約するために、潜伏した空間にワープ操作を組み込む。
textitLatentWarpの時間的コヒーレンスによるビデオ間翻訳における優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-11-01T08:02:57Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - From Continuity to Editability: Inverting GANs with Consecutive Images [37.16137384683823]
既存の GAN の逆変換法は、逆符号が高忠実度再構成を達成できるか、編集能力を維持することができるというパラドックスに固定されている。
本稿では,この逆転過程に連続した画像を導入することで,このパラドックスを解消する。
本手法は,ビデオベースGAN変換の最初のサポートを提供し,連続画像からの教師なしセマンティックトランスファーの興味深い応用を提供する。
論文 参考訳(メタデータ) (2021-07-29T08:19:58Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。