論文の概要: Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2406.02541v2
- Date: Wed, 5 Jun 2024 05:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:48:57.915167
- Title: Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting
- Title(参考訳): 3次元ガウススプラッティングによる映像再構成による映像編集における時間的一貫性の強化
- Authors: Inkyu Shin, Qihang Yu, Xiaohui Shen, In So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen,
- Abstract要約: Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
- 参考スコア(独自算出の注目度): 94.84688557937123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in zero-shot video diffusion models have shown promise for text-driven video editing, but challenges remain in achieving high temporal consistency. To address this, we introduce Video-3DGS, a 3D Gaussian Splatting (3DGS)-based video refiner designed to enhance temporal consistency in zero-shot video editors. Our approach utilizes a two-stage 3D Gaussian optimizing process tailored for editing dynamic monocular videos. In the first stage, Video-3DGS employs an improved version of COLMAP, referred to as MC-COLMAP, which processes original videos using a Masked and Clipped approach. For each video clip, MC-COLMAP generates the point clouds for dynamic foreground objects and complex backgrounds. These point clouds are utilized to initialize two sets of 3D Gaussians (Frg-3DGS and Bkg-3DGS) aiming to represent foreground and background views. Both foreground and background views are then merged with a 2D learnable parameter map to reconstruct full views. In the second stage, we leverage the reconstruction ability developed in the first stage to impose the temporal constraints on the video diffusion model. To demonstrate the efficacy of Video-3DGS on both stages, we conduct extensive experiments across two related tasks: Video Reconstruction and Video Editing. Video-3DGS trained with 3k iterations significantly improves video reconstruction quality (+3 PSNR, +7 PSNR increase) and training efficiency (x1.9, x4.5 times faster) over NeRF-based and 3DGS-based state-of-art methods on DAVIS dataset, respectively. Moreover, it enhances video editing by ensuring temporal consistency across 58 dynamic monocular videos.
- Abstract(参考訳): ゼロショットビデオ拡散モデルの最近の進歩は、テキスト駆動ビデオ編集の可能性を示唆している。
これを解決するために,ゼロショットビデオエディタの時間的一貫性を高めるために,3Dガウス・スプレイティング(3DGS)ベースのビデオ精細機であるVideo-3DGSを紹介する。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
第1段階では、ビデオ3DGSはMC-COLMAPと呼ばれる改良版のCOLMAPを採用し、Masked and Clippedアプローチを用いてオリジナルビデオを処理する。
各ビデオクリップに対して、MC-COLMAPは、動的前景オブジェクトと複雑な背景のための点雲を生成する。
これらの点雲は、前景と背景像を表すために、2組の3Dガウス(Frg-3DGSとBkg-3DGS)を初期化する。
前景と背景の両方のビューは、完全なビューを再構築する2D学習可能なパラメータマップにマージされる。
第2段階では,ビデオ拡散モデルに時間的制約を課すために,第1段階で開発された再構成能力を活用する。
両段階におけるビデオ3DGSの有効性を示すために,ビデオ再構成とビデオ編集という2つの関連課題にまたがる広範な実験を行った。
3kイテレーションでトレーニングされたビデオ3DGSは、ビデオ再構成の品質(+3 PSNR、+7 PSNRの増加)とトレーニング効率(x1.9、x4.5倍の高速化)を、それぞれNRFベースとDAVISデータセット上の3DGSベースの最先端手法で改善する。
さらに、58個の動的モノクロビデオ間の時間的一貫性を確保することにより、ビデオ編集を強化する。
関連論文リスト
- 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and
View-Change Human-Centric Video Editing [48.086102360155856]
本稿では,革新的映像表現として動的ニューラルラジアンス場(NeRF)を紹介する。
本稿では,一貫した編集が可能な画像ベースビデオNeRF編集パイプラインを提案する。
我々の手法はDynVideo-Eと呼ばれ、2つの挑戦的データセットに対するSOTAのアプローチを、人間の好みに対して50%の差で大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-16T17:48:10Z) - OmnimatteRF: Robust Omnimatte with 3D Background Modeling [42.844343885602214]
動的2次元前景層と3次元背景モデルを組み合わせた新しいビデオマッチング手法OmnimatteRFを提案する。
2Dレイヤーは被写体の詳細を保存し、3D背景は現実世界のビデオのシーンをしっかりと再構築する。
論文 参考訳(メタデータ) (2023-09-14T14:36:22Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - Layered Neural Atlases for Consistent Video Editing [37.69447642502351]
本稿では,入力映像を層状2次元アトラスに分解する手法を提案する。
ビデオの各画素について,各アトラスの対応する2次元座標を推定する。
我々は、アトラスを解釈可能で意味論的に設計し、アトラス領域での簡単かつ直感的な編集を容易にする。
論文 参考訳(メタデータ) (2021-09-23T14:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。