論文の概要: WoVoGen: World Volume-aware Diffusion for Controllable Multi-camera
Driving Scene Generation
- arxiv url: http://arxiv.org/abs/2312.02934v2
- Date: Wed, 6 Dec 2023 18:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 11:53:13.118387
- Title: WoVoGen: World Volume-aware Diffusion for Controllable Multi-camera
Driving Scene Generation
- Title(参考訳): WoVoGen: 制御可能なマルチカメラ駆動シーン生成のための世界ボリューム対応拡散
- Authors: Jiachen Lu, Ze Huang, Jiahui Zhang, Zeyu Yang, Li Zhang
- Abstract要約: ワールドボリューム対応マルチカメラ駆動シーンジェネレータ(WoVoGen)を提案する。
WoVoGenは、4Dワールドボリュームをビデオ生成の基礎要素として利用するように設計されている。
本モデルでは,車載制御シーケンスに基づく将来の4次元時空間容積を想定するフェーズと,マルチカメラビデオを生成するフェーズの2つのフェーズで運用する。
- 参考スコア(独自算出の注目度): 20.901917441627628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating multi-camera street-view videos is critical for augmenting
autonomous driving datasets, addressing the urgent demand for extensive and
varied data. Due to the limitations in diversity and challenges in handling
lighting conditions, traditional rendering-based methods are increasingly being
supplanted by diffusion-based methods. However, a significant challenge in
diffusion-based methods is ensuring that the generated sensor data preserve
both intra-world consistency and inter-sensor coherence. To address these
challenges, we combine an additional explicit world volume and propose the
World Volume-aware Multi-camera Driving Scene Generator (WoVoGen). This system
is specifically designed to leverage 4D world volume as a foundational element
for video generation. Our model operates in two distinct phases: (i)
envisioning the future 4D temporal world volume based on vehicle control
sequences, and (ii) generating multi-camera videos, informed by this envisioned
4D temporal world volume and sensor interconnectivity. The incorporation of the
4D world volume empowers WoVoGen not only to generate high-quality street-view
videos in response to vehicle control inputs but also to facilitate scene
editing tasks.
- Abstract(参考訳): マルチカメラストリートビュービデオの生成は、広範囲で多様なデータに対する緊急の要求に対処するため、自動運転データセットの増大に不可欠である。
多様性の限界と照明条件の取り扱いの難しさから、従来のレンダリングベースの手法は拡散ベースの手法に取って代わられつつある。
しかし、拡散法における重要な課題は、生成したセンサデータが世界内一貫性とセンサ間コヒーレンスの両方を維持することである。
これらの課題に対処するため,新たな世界ボリュームを組み合わせ,WoVoGen(World Volume-aware Multi-camera Driving Scene Generator)を提案する。
このシステムは4dワールドボリュームをビデオ生成の基礎要素として利用するよう特別に設計されている。
私たちのモデルは2つの異なるフェーズで動作します。
(i)車両制御系列に基づく将来の4次元時間世界容積を想定すること、及び
(ii)この4dテンポラルワールドボリュームとセンサ相互接続性から得られたマルチカメラビデオの生成。
4dワールドボリュームの導入により、wovogenは車両制御入力に応じて高品質なストリートビュービデオを生成するだけでなく、シーン編集作業も容易になる。
関連論文リスト
- MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
本稿では,Ditアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。
MagicDriveDiTは、空間的時間的条件エンコーディングを組み込むことで、空間的時間的潜伏量を正確に制御する。
実験では、高解像度でフレーム数の多いリアルなストリートシーンビデオを生成する上で、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z) - GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model [6.144680854063938]
GenDDSは、自律運転システムの運転シナリオを生成するための新しいアプローチである。
我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。
実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。
論文 参考訳(メタデータ) (2024-08-28T15:37:44Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer [38.85054820740242]
1枚の画像から高品質でコヒーレントな人間ビデオを生成するための新しい手法を提案する。
本フレームワークは,グローバル相関を捉える拡散変圧器の強度と,正確な条件注入を行うCNNの強度を組み合わせたものである。
我々は,360度リアルでコヒーレントな人間のモーションビデオを合成する手法の能力を実証した。
論文 参考訳(メタデータ) (2024-05-27T17:53:29Z) - Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for
Camera-based 3D Object Detection [17.22491199725569]
VIC3Dは、車両と交通インフラの両方から多視点カメラを利用する。
我々は、新しい3Dオブジェクト検出フレームワーク、Vines-Infrastructure Multi-view Intermediate fusion (VIMI)を提案する。
VIMIは15.61%のAP_3Dと21.44%のAP_BEVを新しいVIC3DデータセットであるDAIR-V2X-Cで達成している。
論文 参考訳(メタデータ) (2023-03-20T09:56:17Z) - Scalable and Real-time Multi-Camera Vehicle Detection,
Re-Identification, and Tracking [58.95210121654722]
理想化されたビデオストリームやキュレートされたビデオストリームの代わりに,リアルタイムで低解像度のCCTVを処理する,リアルタイムな都市規模のマルチカメラ車両追跡システムを提案する。
私たちの手法は、公共のリーダーボードで上位5人のパフォーマーにランク付けされています。
論文 参考訳(メタデータ) (2022-04-15T12:47:01Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - DSEC: A Stereo Event Camera Dataset for Driving Scenarios [55.79329250951028]
本研究は,イベントカメラを用いた初の高分解能大規模ステレオデータセットを提案する。
データセットは、様々な照明条件で駆動により収集された53のシーケンスを含む。
イベントベースステレオアルゴリズムの開発と評価のための基礎的な真相の相違を提供する。
論文 参考訳(メタデータ) (2021-03-10T12:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。