論文の概要: A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization Inversion for Zero-Shot Video Editing
- arxiv url: http://arxiv.org/abs/2312.05856v2
- Date: Thu, 23 May 2024 14:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 19:54:19.232904
- Title: A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization Inversion for Zero-Shot Video Editing
- Title(参考訳): 256塩基の価値あるビデオ:ゼロショットビデオ編集のための空間的期待-最大化インバージョン
- Authors: Maomao Li, Yu Li, Tianyu Yang, Yunfei Liu, Dongxu Yue, Zhihui Lin, Dong Xu,
- Abstract要約: ビデオ編集法は通常、通常の2D DDIMインバージョンや、編集前のナイーブな時空間 DDIMインバージョンを適用する。
本稿では,STEM(Spatial-Temporal expectation-Maximization)インバージョンを提案する。
我々の逆転は、2つの最先端のビデオ編集方法において一貫した改善を達成できる。
- 参考スコア(独自算出の注目度): 42.697821739323224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a video inversion approach for zero-shot video editing, which models the input video with low-rank representation during the inversion process. The existing video editing methods usually apply the typical 2D DDIM inversion or naive spatial-temporal DDIM inversion before editing, which leverages time-varying representation for each frame to derive noisy latent. Unlike most existing approaches, we propose a Spatial-Temporal Expectation-Maximization (STEM) inversion, which formulates the dense video feature under an expectation-maximization manner and iteratively estimates a more compact basis set to represent the whole video. Each frame applies the fixed and global representation for inversion, which is more friendly for temporal consistency during reconstruction and editing. Extensive qualitative and quantitative experiments demonstrate that our STEM inversion can achieve consistent improvement on two state-of-the-art video editing methods. Project page: https://stem-inv.github.io/page/.
- Abstract(参考訳): 本稿では,ゼロショット映像編集における映像インバージョン手法を提案する。
既存のビデオ編集法では、通常、2D DDIMのインバージョンや、編集前のナイーブな時空間DDIMのインバージョンを適用している。
多くの既存手法と異なり,より高密度な映像特徴を期待・最大化法で定式化し,映像全体を表現するためのよりコンパクトなベースを反復的に推定する空間的期待・最大化(STEM)インバージョンを提案する。
各フレームはインバージョンに対して固定的かつグローバルな表現を適用し、再構成と編集の間は時間的一貫性に親しみやすい。
広汎な定性的および定量的実験により、STEMインバージョンは、2つの最先端のビデオ編集方法において一貫した改善を達成できることを示した。
プロジェクトページ:https://stem-inv.github.io/page/。
関連論文リスト
- Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いて高精細ビデオ逆問題を解決するためのフレームワークを提案する。
提案手法は遅延空間拡散モデルを用いて,映像品質と解像度の向上を実現する。
従来の手法とは異なり,本手法では複数のアスペクト比をサポートし,1つのGPU上で2.5分以内でHD解像度の再構成を行う。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。
本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。
実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T16:56:53Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - Encode-in-Style: Latent-based Video Encoding using StyleGAN2 [0.7614628596146599]
本稿では,データ効率のよい高品質な映像再生を実現するために,エンドツーエンドの顔画像符号化手法を提案する。
このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。
論文 参考訳(メタデータ) (2022-03-28T05:44:19Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。