論文の概要: CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2510.07944v1
- Date: Thu, 09 Oct 2025 08:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.961754
- Title: CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
- Title(参考訳): CVD-STORM:自律走行のための空間時間再構成モデルを用いたクロスビュービデオ拡散
- Authors: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu,
- Abstract要約: 時空間再構成変分オートエンコーダ(VAE)を用いたビデオ拡散モデルCVD-STORMを提案する。
提案手法は,まず補助的な4次元再構成タスクでVAEを微調整し,その3次元構造と時間的ダイナミクスをエンコードする能力を向上する。
実験結果から,FIDとFVDの両指標の精度向上が得られた。
- 参考スコア(独自算出の注目度): 26.379817613036597
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative models have been widely applied to world modeling for environment simulation and future state prediction. With advancements in autonomous driving, there is a growing demand not only for high-fidelity video generation under various controls, but also for producing diverse and meaningful information such as depth estimation. To address this, we propose CVD-STORM, a cross-view video diffusion model utilizing a spatial-temporal reconstruction Variational Autoencoder (VAE) that generates long-term, multi-view videos with 4D reconstruction capabilities under various control inputs. Our approach first fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its ability to encode 3D structures and temporal dynamics. Subsequently, we integrate this VAE into the video diffusion process to significantly improve generation quality. Experimental results demonstrate that our model achieves substantial improvements in both FID and FVD metrics. Additionally, the jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic scenes, providing valuable geometric information for comprehensive scene understanding.
- Abstract(参考訳): 生成モデルは、環境シミュレーションと将来の状態予測のための世界モデリングに広く応用されている。
自動運転の進歩に伴い、様々な制御下での高忠実度ビデオ生成だけでなく、深度推定などの多種多様な有意義な情報の生成にも需要が高まっている。
そこで本稿では,時空間再構成変分オートエンコーダ(VAE)を用いた4次元再構成機能を備えた長期多視点映像を様々な制御入力で生成するビデオ拡散モデルCVD-STORMを提案する。
提案手法は,まず補助的な4次元再構成タスクでVAEを微調整し,その3次元構造と時間的ダイナミクスをエンコードする能力を向上する。
次に、このVAEをビデオ拡散プロセスに統合し、生成品質を大幅に改善する。
実験結果から,FIDとFVDの両指標の精度向上が得られた。
さらに、共同で訓練されたガウススティングデコーダは、動的シーンを効果的に再構築し、総合的なシーン理解のための貴重な幾何学的情報を提供する。
関連論文リスト
- WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving [21.778139777889397]
4次元駆動シーン生成のための新しいフィードフォワードフレームワークである textbfWorldSplat を提案する。
提案手法は,2つのステップで一貫したマルチトラック映像を効果的に生成する。
ベンチマークデータセットを用いて行った実験は、textbfWorldSplatが高忠実で時間的に空間的に一貫した新しいビュー駆動ビデオを効果的に生成することを示した。
論文 参考訳(メタデータ) (2025-09-27T16:47:44Z) - Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis [12.160537328404622]
textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。
textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
論文 参考訳(メタデータ) (2025-05-29T10:34:45Z) - Factorized Video Autoencoders for Efficient Generative Modelling [44.00676320678128]
本稿では,入力サイズと直交的に成長する4平面の因数分解潜在空間にデータを投影するオートエンコーダを提案する。
提案した4面ラテント空間は高忠実度再構成に必要なリッチな表現を保っていることを示す。
論文 参考訳(メタデータ) (2024-12-05T18:58:17Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Conditional Generative Modeling for Images, 3D Animations, and Video [4.422441608136163]
コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。
研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-19T21:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。