論文の概要: Panacea+: Panoramic and Controllable Video Generation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2408.07605v1
- Date: Wed, 14 Aug 2024 15:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:53:17.506443
- Title: Panacea+: Panoramic and Controllable Video Generation for Autonomous Driving
- Title(参考訳): Panacea+: 自動運転のためのパノラマ・制御可能なビデオ生成
- Authors: Yuqing Wen, Yucheng Zhao, Yingfei Liu, Binyuan Huang, Fan Jia, Yanhui Wang, Chi Zhang, Tiancai Wang, Xiaoyan Sun, Xiangyu Zhang,
- Abstract要約: 本研究では,運転シーンにおける映像データ生成のための強力なフレームワークであるPanacea+を提案する。
Panacea+は、マルチビューのノイズ前処理機構と、一貫性と解像度の向上のための超解像モジュールを採用している。
実験により、生成されたビデオサンプルは、異なるデータセット上の幅広いタスクに大きな恩恵をもたらすことが示された。
- 参考スコア(独自算出の注目度): 23.63374916271247
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The field of autonomous driving increasingly demands high-quality annotated video training data. In this paper, we propose Panacea+, a powerful and universally applicable framework for generating video data in driving scenes. Built upon the foundation of our previous work, Panacea, Panacea+ adopts a multi-view appearance noise prior mechanism and a super-resolution module for enhanced consistency and increased resolution. Extensive experiments show that the generated video samples from Panacea+ greatly benefit a wide range of tasks on different datasets, including 3D object tracking, 3D object detection, and lane detection tasks on the nuScenes and Argoverse 2 dataset. These results strongly prove Panacea+ to be a valuable data generation framework for autonomous driving.
- Abstract(参考訳): 自動運転の分野は、高品質なアノテートビデオトレーニングデータを必要としている。
本稿では,運転シーンにおける映像データを生成するための,強力で普遍的なフレームワークであるPanacea+を提案する。
これまでの研究の基盤として、パナセア+はマルチビューのノイズ先行機構と、一貫性の強化と解像度の向上のための超解像モジュールを採用している。
Panacea+から生成されたビデオサンプルは、3Dオブジェクトトラッキング、3Dオブジェクト検出、nuScenesとArgoverse 2データセットのレーン検出タスクなど、さまざまなデータセット上の幅広いタスクに大きく貢献している。
これらの結果は、Panacea+が自動運転に有用なデータ生成フレームワークであることを強く証明している。
関連論文リスト
- ZOPP: A Framework of Zero-shot Offboard Panoptic Perception for Autonomous Driving [44.174489160967056]
オフボード認識は、自動運転シーンのための高品質な3Dラベルを自動生成することを目的としている。
自律走行シーンのためのZOPP(Zero-shot Offboard Panoptic Perception)フレームワークを提案する。
ZOPPは、視覚基礎モデルの強力なゼロショット認識機能と、ポイントクラウドから派生した3D表現を統合している。
論文 参考訳(メタデータ) (2024-11-08T03:52:32Z) - DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - Panacea: Panoramic and Controllable Video Generation for Autonomous
Driving [38.404935454784855]
運転シナリオにおいてパノラマおよび制御可能なビデオを生成する革新的な手法であるパナセアを提案する。
Panaceaは2つの重要な課題に対処する:「一貫性」と「保守性」
論文 参考訳(メタデータ) (2023-11-28T14:22:24Z) - DrivingDiffusion: Layout-Guided multi-view driving scene video
generation with latent diffusion model [19.288610627281102]
3次元レイアウトで制御されたリアルなマルチビュービデオを生成するために、DrivingDiffusionを提案する。
我々のモデルは複雑な都市のシーンで大規模でリアルなマルチカメラ駆動ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-11T18:00:08Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。