論文の概要: S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix
- arxiv url: http://arxiv.org/abs/2508.08048v1
- Date: Mon, 11 Aug 2025 14:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.154811
- Title: S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix
- Title(参考訳): S^2VG: Denoising Frame Matrixによる立体・空間映像の生成
- Authors: Peng Dai, Feitong Tan, Qiangeng Xu, Yihua Huang, David Futschik, Ruofei Du, Sean Fanello, Yinda Zhang, Xiaojuan Qi,
- Abstract要約: そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
- 参考スコア(独自算出の注目度): 60.060882467801484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While video generation models excel at producing high-quality monocular videos, generating 3D stereoscopic and spatial videos for immersive applications remains an underexplored challenge. We present a pose-free and training-free method that leverages an off-the-shelf monocular video generation model to produce immersive 3D videos. Our approach first warps the generated monocular video into pre-defined camera viewpoints using estimated depth information, then applies a novel \textit{frame matrix} inpainting framework. This framework utilizes the original video generation model to synthesize missing content across different viewpoints and timestamps, ensuring spatial and temporal consistency without requiring additional model fine-tuning. Moreover, we develop a \dualupdate~scheme that further improves the quality of video inpainting by alleviating the negative effects propagated from disoccluded areas in the latent space. The resulting multi-view videos are then adapted into stereoscopic pairs or optimized into 4D Gaussians for spatial video synthesis. We validate the efficacy of our proposed method by conducting experiments on videos from various generative models, such as Sora, Lumiere, WALT, and Zeroscope. The experiments demonstrate that our method has a significant improvement over previous methods. Project page at: https://daipengwa.github.io/S-2VG_ProjectPage/
- Abstract(参考訳): ビデオ生成モデルは高品質なモノクロビデオを作るのに優れているが、没入型アプリケーションのための立体的および空間的ビデオを生成することは、まだ未解決の課題である。
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて事前定義されたカメラ視点にワープし,その後,新しい<textit{frame matrix} 塗布フレームワークを適用した。
このフレームワークは、オリジナルのビデオ生成モデルを利用して、異なる視点とタイムスタンプで欠落したコンテンツを合成し、追加のモデル微調整を必要とせず、空間的および時間的整合性を確保する。
さらに,潜伏空間の非閉塞領域から伝播する負の効果を緩和することにより,映像のインパインティングの質を向上する「dualupdate〜scheme」を開発した。
得られたマルチビュービデオは、ステレオスコープのペアに適合するか、空間ビデオ合成のために4Dガウスに最適化される。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
実験により,本手法は従来の手法よりも大幅に改善されていることが示された。
プロジェクトページ: https://daipengwa.github.io/S-2VG_ProjectPage/
関連論文リスト
- Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering [15.79758281898629]
生成モデルは、非常にリアルなクリップを生成することができるが、計算的に非効率であり、ほんの数秒間、数分のGPU時間を必要とすることが多い。
本稿では,静的シーンのカメラコンディショニング映像生成のための新しい戦略について検討する。
提案手法は, 幾何整合性を確保しつつ, 数百フレームにわたる生成コストを補正する。
論文 参考訳(メタデータ) (2026-01-14T18:50:06Z) - Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。
この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。
最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文 参考訳(メタデータ) (2026-01-02T13:04:47Z) - Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。
本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。
提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-17T17:59:17Z) - DreamJourney: Perpetual View Generation with Video Diffusion Models [91.88716097573206]
永続ビュー生成は、単一の入力画像からのみ任意のカメラ軌跡に対応する長期映像を合成することを目的としている。
近年の手法では、予め訓練されたテキスト・画像拡散モデルを用いて、カメラの動きに沿った未確認領域の新しいコンテンツを合成する。
本稿では,映像拡散モデルの世界シミュレーション能力を活用して,新たなシーンビュー生成タスクを起動する2段階フレームワークであるDreamJourneyを紹介する。
論文 参考訳(メタデータ) (2025-06-21T12:51:34Z) - Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis [45.64047250474718]
ビデオ合成の進歩にもかかわらず、3Dビデオデータが比較的少ないため、3Dビデオを作成することは難しい。
本稿では,テキスト・ビデオ・ジェネレータをビデオ・ビデオ・ステレオ・ジェネレータに変換するための簡単な手法を提案する。
われわれのフレームワークは、動画フレームをシフトした視点から自動生成し、説得力のある3D効果を実現する。
論文 参考訳(メタデータ) (2025-04-30T19:06:09Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。
われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-11T17:52:07Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。