論文の概要: OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.10734v3
- Date: Tue, 21 Jan 2025 03:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:16:29.111083
- Title: OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving
- Title(参考訳): OmniHD-Scenes: 自動運転のための次世代マルチモーダルデータセット
- Authors: Lianqing Zheng, Long Yang, Qunshu Lin, Wenjin Ai, Minghao Liu, Shouyi Lu, Jianan Liu, Hongze Ren, Jingyue Mo, Xiaokai Bai, Jie Bai, Zhixiong Ma, Xichan Zhu,
- Abstract要約: 高品質なデータセットは、効率的なデータ駆動自律運転ソリューションの開発に不可欠である。
OmniHD-Scenesは大規模なマルチモーダルデータセットであり、全方位全方位高精細データを提供する。
データセットは1501のクリップで構成され、それぞれ約30秒の長さで、合計450K以上の同期フレームと585万以上の同期センサーデータポイントで構成されている。
- 参考スコア(独自算出の注目度): 6.426389871517664
- License:
- Abstract: The rapid advancement of deep learning has intensified the need for comprehensive data for use by autonomous driving algorithms. High-quality datasets are crucial for the development of effective data-driven autonomous driving solutions. Next-generation autonomous driving datasets must be multimodal, incorporating data from advanced sensors that feature extensive data coverage, detailed annotations, and diverse scene representation. To address this need, we present OmniHD-Scenes, a large-scale multimodal dataset that provides comprehensive omnidirectional high-definition data. The OmniHD-Scenes dataset combines data from 128-beam LiDAR, six cameras, and six 4D imaging radar systems to achieve full environmental perception. The dataset comprises 1501 clips, each approximately 30-s long, totaling more than 450K synchronized frames and more than 5.85 million synchronized sensor data points. We also propose a novel 4D annotation pipeline. To date, we have annotated 200 clips with more than 514K precise 3D bounding boxes. These clips also include semantic segmentation annotations for static scene elements. Additionally, we introduce a novel automated pipeline for generation of the dense occupancy ground truth, which effectively leverages information from non-key frames. Alongside the proposed dataset, we establish comprehensive evaluation metrics, baseline models, and benchmarks for 3D detection and semantic occupancy prediction. These benchmarks utilize surround-view cameras and 4D imaging radar to explore cost-effective sensor solutions for autonomous driving applications. Extensive experiments demonstrate the effectiveness of our low-cost sensor configuration and its robustness under adverse conditions. Data will be released at https://www.2077ai.com/OmniHD-Scenes.
- Abstract(参考訳): ディープラーニングの急速な進歩により、自律運転アルゴリズムによる包括的なデータの必要性が高まっている。
高品質なデータセットは、効率的なデータ駆動自律運転ソリューションの開発に不可欠である。
次世代の自律走行データセットはマルチモーダルでなければならない。広範なデータカバレッジ、詳細なアノテーション、多様なシーン表現を備えた高度なセンサーのデータが組み込まれている。
このニーズに対処するために,全方位高精細データを包括的に提供する大規模マルチモーダルデータセットであるOmniHD-Scenesを提案する。
OmniHD-Scenesデータセットは、128ビームのLiDAR、6台のカメラ、6台の4Dイメージングレーダーシステムから得られたデータを組み合わせて、完全な環境認識を実現している。
データセットは1501のクリップで構成され、それぞれ約30秒の長さで、合計450K以上の同期フレームと585万以上の同期センサーデータポイントで構成されている。
また,新しい4Dアノテーションパイプラインを提案する。
これまでに、200本のクリップに514K以上の正確な3Dバウンディングボックスを付加しました。
これらのクリップには静的シーン要素のセマンティックセグメンテーションアノテーションも含まれている。
さらに,非鍵フレームからの情報を効果的に活用する,密度の高い接地真実を生成するための新しい自動パイプラインを導入する。
提案するデータセットとともに,3次元検出とセマンティック占有率予測のための総合評価指標,ベースラインモデル,ベンチマークを確立する。
これらのベンチマークでは、サラウンドビューカメラと4Dイメージングレーダを使用して、自動運転車のためのコスト効率の高いセンサーソリューションを探索している。
大規模な実験では、低コストのセンサ構成の有効性と、悪条件下でのロバスト性を示す。
データはhttps://www.2077ai.com/OmniHD-Scenes.comで公開される。
関連論文リスト
- RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - SCaRL- A Synthetic Multi-Modal Dataset for Autonomous Driving [0.0]
本稿では、自律運転ソリューションのトレーニングと検証を可能にするために、合成生成された新しいマルチモーダルデータセットであるSCaRLを提案する。
SCaRLはCARLA Simulatorに基づく大規模なデータセットであり、多様な動的シナリオとトラフィック条件のためのデータを提供する。
論文 参考訳(メタデータ) (2024-05-27T10:31:26Z) - TUMTraf V2X Cooperative Perception Dataset [20.907021313266128]
協調型マルチモーダル融合モデルであるCoopDet3Dと認識データセットであるTUMTraf-V2Xを提案する。
私たちのデータセットには2,000のラベル付きポイントクラウドと5000のラベル付きイメージが5つの道端と4つのオンボードセンサーから含まれています。
当社のCoopDet3Dカメラ-LiDAR融合モデルでは,車載カメラ-LiDAR融合モデルと比較して+14.363D mAPの増加が達成されている。
論文 参考訳(メタデータ) (2024-03-02T21:29:04Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - aiMotive Dataset: A Multimodal Dataset for Robust Autonomous Driving
with Long-Range Perception [0.0]
このデータセットは、同期して校正されたLiDAR、カメラ、および360度の視野をカバーするレーダーセンサーを備えた176のシーンで構成されている。
収集したデータは、昼間、夜、雨の間に、高速道路、都市、郊外で撮影された。
我々は3次元物体検出のための一次元・多モードベースラインモデルを訓練した。
論文 参考訳(メタデータ) (2022-11-17T10:19:59Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - TUM-VIE: The TUM Stereo Visual-Inertial Event Dataset [50.8779574716494]
イベントカメラはバイオインスパイアされた視覚センサーで、ピクセルごとの明るさの変化を測定する。
これらは、低レイテンシ、高ダイナミックレンジ、高時間分解能、低消費電力など、従来のフレームベースのカメラよりも多くの利点を提供する。
イベントカメラを用いた3次元認識・ナビゲーションアルゴリズムの開発を促進するため,TUM-VIEデータセットを提案する。
論文 参考訳(メタデータ) (2021-08-16T19:53:56Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - PixSet : An Opportunity for 3D Computer Vision to Go Beyond Point Clouds
With a Full-Waveform LiDAR Dataset [0.11726720776908521]
Leddar PixSetは、自動運転研究開発のための新しい公開データセット(dataset.leddartech.com)である。
ピクセットデータセットは、高密度の都市部で記録された97のシーケンスから約29kフレームを含む。
論文 参考訳(メタデータ) (2021-02-24T01:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。