論文の概要: A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization
Inversion for Zero-Shot Video Editing
- arxiv url: http://arxiv.org/abs/2312.05856v1
- Date: Sun, 10 Dec 2023 11:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:13:09.496321
- Title: A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization
Inversion for Zero-Shot Video Editing
- Title(参考訳): 256ベースのビデオ:ゼロショットビデオ編集のための空間的期待-最大化インバージョン
- Authors: Maomao Li, Yu Li, Tianyu Yang, Yunfei Liu, Dongxu Yue, Zhihui Lin, and
Dong Xu
- Abstract要約: 本稿では,ゼロショット映像編集のためのビデオインバージョン手法を提案する。
インバージョンプロセス中に低ランクの表現で入力映像をモデル化することを目的としている。
- 参考スコア(独自算出の注目度): 42.697821739323224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a video inversion approach for zero-shot video editing,
which aims to model the input video with low-rank representation during the
inversion process. The existing video editing methods usually apply the typical
2D DDIM inversion or na\"ive spatial-temporal DDIM inversion before editing,
which leverages time-varying representation for each frame to derive noisy
latent. Unlike most existing approaches, we propose a Spatial-Temporal
Expectation-Maximization (STEM) inversion, which formulates the dense video
feature under an expectation-maximization manner and iteratively estimates a
more compact basis set to represent the whole video. Each frame applies the
fixed and global representation for inversion, which is more friendly for
temporal consistency during reconstruction and editing. Extensive qualitative
and quantitative experiments demonstrate that our STEM inversion can achieve
consistent improvement on two state-of-the-art video editing methods.
- Abstract(参考訳): 本稿では,ゼロショット映像編集のためのビデオインバージョン手法を提案する。
既存のビデオ編集方法は、通常、編集の前に2D DDIMのインバージョンやna\の時空間DDIMのインバージョンを適用する。
多くの既存手法と異なり,より高密度な映像特徴を期待最大化法で定式化し,映像全体を表現するためのよりコンパクトなベースを反復的に推定する空間的期待最大化(STEM)インバージョンを提案する。
各フレームはインバージョンに対して固定的かつグローバルな表現を適用し、再構成と編集の間は時間的一貫性に親しみやすい。
我々のSTEMインバージョンは2つの最先端ビデオ編集法において一貫した改善を達成できることを示す。
関連論文リスト
- Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いて高精細ビデオ逆問題を解決するためのフレームワークを提案する。
提案手法は遅延空間拡散モデルを用いて,映像品質と解像度の向上を実現する。
従来の手法とは異なり,本手法では複数のアスペクト比をサポートし,1つのGPU上で2.5分以内でHD解像度の再構成を行う。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。
本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。
実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T16:56:53Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - Encode-in-Style: Latent-based Video Encoding using StyleGAN2 [0.7614628596146599]
本稿では,データ効率のよい高品質な映像再生を実現するために,エンドツーエンドの顔画像符号化手法を提案する。
このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。
論文 参考訳(メタデータ) (2022-03-28T05:44:19Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。