論文の概要: A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization
Inversion for Zero-Shot Video Editing
- arxiv url: http://arxiv.org/abs/2312.05856v1
- Date: Sun, 10 Dec 2023 11:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:13:09.496321
- Title: A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization
Inversion for Zero-Shot Video Editing
- Title(参考訳): 256ベースのビデオ:ゼロショットビデオ編集のための空間的期待-最大化インバージョン
- Authors: Maomao Li, Yu Li, Tianyu Yang, Yunfei Liu, Dongxu Yue, Zhihui Lin, and
Dong Xu
- Abstract要約: 本稿では,ゼロショット映像編集のためのビデオインバージョン手法を提案する。
インバージョンプロセス中に低ランクの表現で入力映像をモデル化することを目的としている。
- 参考スコア(独自算出の注目度): 42.697821739323224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a video inversion approach for zero-shot video editing,
which aims to model the input video with low-rank representation during the
inversion process. The existing video editing methods usually apply the typical
2D DDIM inversion or na\"ive spatial-temporal DDIM inversion before editing,
which leverages time-varying representation for each frame to derive noisy
latent. Unlike most existing approaches, we propose a Spatial-Temporal
Expectation-Maximization (STEM) inversion, which formulates the dense video
feature under an expectation-maximization manner and iteratively estimates a
more compact basis set to represent the whole video. Each frame applies the
fixed and global representation for inversion, which is more friendly for
temporal consistency during reconstruction and editing. Extensive qualitative
and quantitative experiments demonstrate that our STEM inversion can achieve
consistent improvement on two state-of-the-art video editing methods.
- Abstract(参考訳): 本稿では,ゼロショット映像編集のためのビデオインバージョン手法を提案する。
既存のビデオ編集方法は、通常、編集の前に2D DDIMのインバージョンやna\の時空間DDIMのインバージョンを適用する。
多くの既存手法と異なり,より高密度な映像特徴を期待最大化法で定式化し,映像全体を表現するためのよりコンパクトなベースを反復的に推定する空間的期待最大化(STEM)インバージョンを提案する。
各フレームはインバージョンに対して固定的かつグローバルな表現を適用し、再構成と編集の間は時間的一貫性に親しみやすい。
我々のSTEMインバージョンは2つの最先端ビデオ編集法において一貫した改善を達成できることを示す。
関連論文リスト
- VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。
本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。
実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T16:56:53Z) - FLAIR: A Conditional Diffusion Framework with Applications to Face Video
Restoration [14.17192434286707]
顔画像復元のためのFLAIRと呼ばれる新しい条件拡散フレームワークを提案する。
FLAIRは、計算的に効率的な方法でフレーム間の時間的一貫性を保証する。
我々の実験は,2つの高品質な顔ビデオデータセット上での映像超解像,デブロアリング,JPEG復元,時空フレームにおいて,現在最先端(SOTA)よりもFLAIRの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-26T22:09:18Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - Encode-in-Style: Latent-based Video Encoding using StyleGAN2 [0.7614628596146599]
本稿では,データ効率のよい高品質な映像再生を実現するために,エンドツーエンドの顔画像符号化手法を提案する。
このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。
論文 参考訳(メタデータ) (2022-03-28T05:44:19Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。