論文の概要: SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
- arxiv url: http://arxiv.org/abs/2407.00367v1
- Date: Sat, 29 Jun 2024 08:33:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:35:30.622182
- Title: SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
- Title(参考訳): SVG: Denoising Frame Matrixによる立体映像生成
- Authors: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang,
- Abstract要約: 本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
- 参考スコア(独自算出の注目度): 60.48666051245761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models have demonstrated great capabilities of producing impressive monocular videos, however, the generation of 3D stereoscopic video remains under-explored. We propose a pose-free and training-free approach for generating 3D stereoscopic videos using an off-the-shelf monocular video generation model. Our method warps a generated monocular video into camera views on stereoscopic baseline using estimated video depth, and employs a novel frame matrix video inpainting framework. The framework leverages the video generation model to inpaint frames observed from different timestamps and views. This effective approach generates consistent and semantically coherent stereoscopic videos without scene optimization or model fine-tuning. Moreover, we develop a disocclusion boundary re-injection scheme that further improves the quality of video inpainting by alleviating the negative effects propagated from disoccluded areas in the latent space. We validate the efficacy of our proposed method by conducting experiments on videos from various generative models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The experiments demonstrate that our method has a significant improvement over previous methods. The code will be released at \url{https://daipengwa.github.io/SVG_ProjectPage}.
- Abstract(参考訳): ビデオ生成モデルは、印象的なモノクロビデオを生成する素晴らしい能力を示してきたが、3Dステレオビデオの生成は未調査のままである。
市販単眼ビデオ生成モデルを用いて3次元立体映像を生成するためのポーズフリーでトレーニング不要な手法を提案する。
提案手法では, ビデオ深度推定による立体視ベースライン上のカメラビューにモノクロ映像をワープし, フレームマトリックス映像の塗布フレームワークを用いる。
このフレームワークは、ビデオ生成モデルを利用して、異なるタイムスタンプやビューから観察されたフレームをインペイントする。
この効果的なアプローチは、シーン最適化やモデル微調整なしで一貫したセマンティック・コヒーレントなステレオビデオを生成する。
さらに,非閉塞領域から伝播する負の効果を緩和することにより,映像の塗装品質を向上する,非閉塞境界再注入方式を開発した。
提案手法の有効性を,Sora [4 ], Lumiere [2], WALT [8 ], Zeroscope [42] など,様々な生成モデルを用いた実験により検証した。
実験により,本手法は従来の手法よりも大幅に改善されていることが示された。
コードは \url{https://daipengwa.github.io/SVG_ProjectPage} でリリースされる。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。
われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-11T17:52:07Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。
具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。
生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文 参考訳(メタデータ) (2024-08-10T08:09:57Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。
まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。
そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文 参考訳(メタデータ) (2024-02-20T16:39:23Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。