Fugu-MT 論文翻訳(概要): Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting

論文の概要: Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting

arxiv url: http://arxiv.org/abs/2406.02541v2
Date: Wed, 5 Jun 2024 05:00:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 11:48:57.915167
Title: Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting
Title（参考訳）: 3次元ガウススプラッティングによる映像再構成による映像編集における時間的一貫性の強化
Authors: Inkyu Shin, Qihang Yu, Xiaohui Shen, In So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen,
Abstract要約: Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。 58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
参考スコア（独自算出の注目度）: 94.84688557937123
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in zero-shot video diffusion models have shown promise for text-driven video editing, but challenges remain in achieving high temporal consistency. To address this, we introduce Video-3DGS, a 3D Gaussian Splatting (3DGS)-based video refiner designed to enhance temporal consistency in zero-shot video editors. Our approach utilizes a two-stage 3D Gaussian optimizing process tailored for editing dynamic monocular videos. In the first stage, Video-3DGS employs an improved version of COLMAP, referred to as MC-COLMAP, which processes original videos using a Masked and Clipped approach. For each video clip, MC-COLMAP generates the point clouds for dynamic foreground objects and complex backgrounds. These point clouds are utilized to initialize two sets of 3D Gaussians (Frg-3DGS and Bkg-3DGS) aiming to represent foreground and background views. Both foreground and background views are then merged with a 2D learnable parameter map to reconstruct full views. In the second stage, we leverage the reconstruction ability developed in the first stage to impose the temporal constraints on the video diffusion model. To demonstrate the efficacy of Video-3DGS on both stages, we conduct extensive experiments across two related tasks: Video Reconstruction and Video Editing. Video-3DGS trained with 3k iterations significantly improves video reconstruction quality (+3 PSNR, +7 PSNR increase) and training efficiency (x1.9, x4.5 times faster) over NeRF-based and 3DGS-based state-of-art methods on DAVIS dataset, respectively. Moreover, it enhances video editing by ensuring temporal consistency across 58 dynamic monocular videos.
Abstract（参考訳）: ゼロショットビデオ拡散モデルの最近の進歩は、テキスト駆動ビデオ編集の可能性を示唆している。これを解決するために,ゼロショットビデオエディタの時間的一貫性を高めるために,3Dガウス・スプレイティング(3DGS)ベースのビデオ精細機であるVideo-3DGSを紹介する。本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。第1段階では、ビデオ3DGSはMC-COLMAPと呼ばれる改良版のCOLMAPを採用し、Masked and Clippedアプローチを用いてオリジナルビデオを処理する。各ビデオクリップに対して、MC-COLMAPは、動的前景オブジェクトと複雑な背景のための点雲を生成する。これらの点雲は、前景と背景像を表すために、2組の3Dガウス(Frg-3DGSとBkg-3DGS)を初期化する。前景と背景の両方のビューは、完全なビューを再構築する2D学習可能なパラメータマップにマージされる。第2段階では,ビデオ拡散モデルに時間的制約を課すために,第1段階で開発された再構成能力を活用する。両段階におけるビデオ3DGSの有効性を示すために,ビデオ再構成とビデオ編集という2つの関連課題にまたがる広範な実験を行った。 3kイテレーションでトレーニングされたビデオ3DGSは、ビデオ再構成の品質(+3 PSNR、+7 PSNRの増加)とトレーニング効率(x1.9、x4.5倍の高速化)を、それぞれNRFベースとDAVISデータセット上の3DGSベースの最先端手法で改善する。さらに、58個の動的モノクロビデオ間の時間的一貫性を確保することにより、ビデオ編集を強化する。

関連論文リスト

3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models [12.949009540192389]
3DV-TONは、高忠実で時間的に一貫したビデオトライオン結果を生成するための新しいフレームワークである。提案手法では, フレームレベルの明示的なガイダンスとして, アニマタブルなテクスチャ付き3Dメッシュを用いる。ビデオトライオン研究を進めるために,衣類の種類やシナリオが多種多様である130本のビデオを含む高精細度ベンチマークデータセットHR-VVTを紹介する。
論文参考訳（メタデータ） (2025-04-24T10:12:40Z)
GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting [17.17292309504131]
GaussVideoDreamerは、画像、ビデオ、および3D生成のギャップを埋めることで、生成的マルチメディアアプローチを前進させる。提案手法は,LLaVA-IQAスコアの32%,既存の手法に比べて少なくとも2倍の高速化を実現している。
論文参考訳（メタデータ） (2025-04-14T09:04:01Z)
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文参考訳（メタデータ） (2025-01-05T23:55:33Z)
LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文参考訳（メタデータ） (2024-12-12T18:58:42Z)
StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2024-09-11T17:52:07Z)
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。フレームレートは16fps、解像度は768×1360ピクセル。
論文参考訳（メタデータ） (2024-08-12T11:47:11Z)
3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。 3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文参考訳（メタデータ） (2024-07-14T07:03:50Z)
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文参考訳（メタデータ） (2024-06-29T08:33:55Z)
Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文参考訳（メタデータ） (2024-06-19T22:20:03Z)
Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。 HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文参考訳（メタデータ） (2024-02-21T11:46:16Z)
DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing [48.086102360155856]
本稿では,革新的映像表現として動的ニューラルラジアンス場(NeRF)を紹介する。本稿では,一貫した編集が可能な画像ベースビデオNeRF編集パイプラインを提案する。我々の手法はDynVideo-Eと呼ばれ、2つの挑戦的データセットに対するSOTAのアプローチを、人間の好みに対して50%の差で大幅に上回っている。
論文参考訳（メタデータ） (2023-10-16T17:48:10Z)
OmnimatteRF: Robust Omnimatte with 3D Background Modeling [42.844343885602214]
動的2次元前景層と3次元背景モデルを組み合わせた新しいビデオマッチング手法OmnimatteRFを提案する。 2Dレイヤーは被写体の詳細を保存し、3D背景は現実世界のビデオのシーンをしっかりと再構築する。
論文参考訳（メタデータ） (2023-09-14T14:36:22Z)
Video Autoencoder: self-supervised disentanglement of static 3D structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文参考訳（メタデータ） (2021-10-06T17:57:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。