論文の概要: WoVoGen: World Volume-aware Diffusion for Controllable Multi-camera Driving Scene Generation
- arxiv url: http://arxiv.org/abs/2312.02934v3
- Date: Tue, 19 Mar 2024 15:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 00:01:19.802011
- Title: WoVoGen: World Volume-aware Diffusion for Controllable Multi-camera Driving Scene Generation
- Title(参考訳): WoVoGen: 制御可能なマルチカメラ駆動シーン生成のための世界ボリューム対応拡散
- Authors: Jiachen Lu, Ze Huang, Zeyu Yang, Jiahui Zhang, Li Zhang,
- Abstract要約: ワールドボリューム対応マルチカメラ駆動シーンジェネレータ(WoVoGen)を提案する。
WoVoGenは、4Dワールドボリュームをビデオ生成の基礎要素として利用するように設計されている。
本モデルでは,車載制御シーケンスに基づく将来の4次元時空間容積を想定するフェーズと,マルチカメラビデオを生成するフェーズの2つのフェーズで運用する。
- 参考スコア(独自算出の注目度): 19.4826828227159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating multi-camera street-view videos is critical for augmenting autonomous driving datasets, addressing the urgent demand for extensive and varied data. Due to the limitations in diversity and challenges in handling lighting conditions, traditional rendering-based methods are increasingly being supplanted by diffusion-based methods. However, a significant challenge in diffusion-based methods is ensuring that the generated sensor data preserve both intra-world consistency and inter-sensor coherence. To address these challenges, we combine an additional explicit world volume and propose the World Volume-aware Multi-camera Driving Scene Generator (WoVoGen). This system is specifically designed to leverage 4D world volume as a foundational element for video generation. Our model operates in two distinct phases: (i) envisioning the future 4D temporal world volume based on vehicle control sequences, and (ii) generating multi-camera videos, informed by this envisioned 4D temporal world volume and sensor interconnectivity. The incorporation of the 4D world volume empowers WoVoGen not only to generate high-quality street-view videos in response to vehicle control inputs but also to facilitate scene editing tasks.
- Abstract(参考訳): マルチカメラストリートビュービデオの生成は、広範囲で多様なデータに対する緊急の要求に対処するため、自動運転データセットの増大に不可欠である。
照明条件を扱う際の多様性や課題の制限により、従来のレンダリングベースの手法は拡散ベースの手法に取って代わられつつある。
しかし、拡散法における重要な課題は、生成したセンサデータが世界内部の一貫性とセンサ間のコヒーレンスの両方を維持することを保証することである。
これらの課題に対処するため,新たな世界ボリュームを組み合わせ,WoVoGen(World Volume-aware Multi-camera Driving Scene Generator)を提案する。
このシステムは、4Dワールドボリュームをビデオ生成の基礎要素として活用するように設計されている。
私たちのモデルは2つの異なるフェーズで動作します。
一 車両制御順序に基づく将来の四次元時空間容積を想定すること。
(II) この4次元時間的世界容積とセンサの相互接続性から, マルチカメラ映像を生成する。
4Dワールドボリュームの導入により、WoVoGenは車載制御入力に応じて高品質なストリートビュービデオを生成するだけでなく、シーン編集作業を容易にすることができる。
関連論文リスト
- MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
本稿では,Ditアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。
MagicDriveDiTは、空間的時間的条件エンコーディングを組み込むことで、空間的時間的潜伏量を正確に制御する。
実験では、高解像度でフレーム数の多いリアルなストリートシーンビデオを生成する上で、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z) - GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model [6.144680854063938]
GenDDSは、自律運転システムの運転シナリオを生成するための新しいアプローチである。
我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。
実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。
論文 参考訳(メタデータ) (2024-08-28T15:37:44Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer [38.85054820740242]
1枚の画像から高品質でコヒーレントな人間ビデオを生成するための新しい手法を提案する。
本フレームワークは,グローバル相関を捉える拡散変圧器の強度と,正確な条件注入を行うCNNの強度を組み合わせたものである。
我々は,360度リアルでコヒーレントな人間のモーションビデオを合成する手法の能力を実証した。
論文 参考訳(メタデータ) (2024-05-27T17:53:29Z) - Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for
Camera-based 3D Object Detection [17.22491199725569]
VIC3Dは、車両と交通インフラの両方から多視点カメラを利用する。
我々は、新しい3Dオブジェクト検出フレームワーク、Vines-Infrastructure Multi-view Intermediate fusion (VIMI)を提案する。
VIMIは15.61%のAP_3Dと21.44%のAP_BEVを新しいVIC3DデータセットであるDAIR-V2X-Cで達成している。
論文 参考訳(メタデータ) (2023-03-20T09:56:17Z) - Scalable and Real-time Multi-Camera Vehicle Detection,
Re-Identification, and Tracking [58.95210121654722]
理想化されたビデオストリームやキュレートされたビデオストリームの代わりに,リアルタイムで低解像度のCCTVを処理する,リアルタイムな都市規模のマルチカメラ車両追跡システムを提案する。
私たちの手法は、公共のリーダーボードで上位5人のパフォーマーにランク付けされています。
論文 参考訳(メタデータ) (2022-04-15T12:47:01Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - DSEC: A Stereo Event Camera Dataset for Driving Scenarios [55.79329250951028]
本研究は,イベントカメラを用いた初の高分解能大規模ステレオデータセットを提案する。
データセットは、様々な照明条件で駆動により収集された53のシーケンスを含む。
イベントベースステレオアルゴリズムの開発と評価のための基礎的な真相の相違を提供する。
論文 参考訳(メタデータ) (2021-03-10T12:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。