論文の概要: 123D: Unifying Multi-Modal Autonomous Driving Data at Scale
- arxiv url: http://arxiv.org/abs/2605.08084v1
- Date: Fri, 08 May 2026 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.265996
- Title: 123D: Unifying Multi-Modal Autonomous Driving Data at Scale
- Title(参考訳): 123D: 大規模なマルチモーダル自動運転データを統一する
- Authors: Daniel Dauner, Valentin Charraut, Bastian Berle, Tianyu Li, Long Nguyen, Jiabao Wang, Changhui Jing, Maximilian Igl, Holger Caesar, Boris Ivanovic, Yiyi Liao, Andreas Geiger, Kashyap Chitta,
- Abstract要約: このようなマルチモーダル駆動データを単一のAPIで統一するオープンソースフレームワークである123Dを提案する。
私たちは,3300時間90万kmにわたる8つの実世界の運転データセットと,収集スクリプトを備えた合成データセットを統合し,データ解析と可視化のためのツールを提供しています。
- 参考スコア(独自算出の注目度): 58.4010470217018
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The pursuit of autonomous driving has produced one of the richest sensor data collections in all of robotics. However, its scale and diversity remain largely untapped. Each dataset adopts different 2D and 3D modalities, such as cameras, lidar, ego states, annotations, traffic lights, and HD maps, with different rates and synchronization schemes. They come in fragmented formats requiring complex dependencies that cannot natively coexist in the same development environment. Further, major inconsistencies in annotation conventions prevent training or measuring generalization across multiple datasets. We present 123D, an open-source framework that unifies such multi-modal driving data through a single API. To handle synchronization, we store each modality as an independent timestamped event stream with no prescribed rate, enabling synchronous or asynchronous access across arbitrary datasets. Using 123D, we consolidate eight real-world driving datasets spanning 3,300 hours and 90,000 kilometers, together with a synthetic dataset with configurable collection scripts, and provide tools for data analysis and visualization. We conduct a systematic study comparing annotation statistics and assessing each dataset's pose and calibration accuracy. Further, we showcase two applications 123D enables: cross-dataset 3D object detection transfer and reinforcement learning for planning, and offer recommendations for future directions. Code and documentation are available at https://github.com/kesai-labs/py123d.
- Abstract(参考訳): 自律運転の追求は、すべてのロボティクスにおいて、最もリッチなセンサーデータ収集の1つを生み出した。
しかし、その規模と多様性は未発達のままである。
各データセットは、カメラ、ライダー、エゴ状態、アノテーション、信号機、HDマップなど、異なるレートと同期スキームで異なる2Dおよび3Dモードを採用する。
それらは、同じ開発環境でネイティブに共存できない複雑な依存関係を必要とする断片化されたフォーマットである。
さらに、アノテーション規約における大きな矛盾は、複数のデータセットにわたるトレーニングや一般化の計測を妨げている。
このようなマルチモーダル駆動データを単一のAPIで統一するオープンソースフレームワークである123Dを提案する。
同期を処理するために、各モードを所定の頻度で独立したタイムスタンプイベントストリームとして保存し、任意のデータセット間で同期または非同期アクセスを可能にする。
123Dを使用することで,3300時間90万kmにわたる8つの実世界の運転データセットと,構成可能なコレクションスクリプトを備えた合成データセットを統合し,データ解析と可視化のためのツールを提供する。
我々は、アノテーション統計を比較し、各データセットのポーズとキャリブレーションの精度を評価する体系的な研究を行う。
さらに,123Dが実現している2つのアプリケーションについて紹介する。
コードとドキュメントはhttps://github.com/kesai-labs/py123d.comで公開されている。
関連論文リスト
- ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K [83.97657657382376]
データ生成可能なデジタルオブジェクト双子を生成するパイプラインであるManiTwinを提案する。
我々は100Kの高品質な3Dアノテートを含むデータセットManiTwin-100Kを構築した。
ManiTwinは効率的なアセット合成とアノテーションのワークフローを提供する。
論文 参考訳(メタデータ) (2026-03-17T17:59:49Z) - DrivIng: A Large-Scale Multimodal Driving Dataset with Full Digital Twin Integration [35.44401354820601]
我々は18kmのルートの完全なデジタル双対を持つ大規模マルチモーダルデータセットであるDrivIngを提示する。
我々のデータセットは、6台のRGBカメラ、1台のLiDAR、そして1日中、夕暮れ時、夜の間を撮影する高精度ADMAベースのローカライゼーションから連続的な記録を提供する。
DrivIngは実際のトラフィックをシミュレーションに1対1で転送し、エージェントのインタラクションを保存すると同時に、現実的で柔軟なシナリオテストを可能にする。
論文 参考訳(メタデータ) (2026-01-21T18:41:05Z) - SCaRL- A Synthetic Multi-Modal Dataset for Autonomous Driving [0.0]
本稿では、自律運転ソリューションのトレーニングと検証を可能にするために、合成生成された新しいマルチモーダルデータセットであるSCaRLを提案する。
SCaRLはCARLA Simulatorに基づく大規模なデータセットであり、多様な動的シナリオとトラフィック条件のためのデータを提供する。
論文 参考訳(メタデータ) (2024-05-27T10:31:26Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - IDD-3D: Indian Driving Dataset for 3D Unstructured Road Scenes [79.18349050238413]
デプロイ可能なディープラーニングアーキテクチャの準備とトレーニングには、さまざまなトラフィックシナリオに適したモデルが必要である。
インドなどいくつかの発展途上国で見られる非構造的で複雑な運転レイアウトは、これらのモデルに挑戦している。
我々は、複数のカメラと12kの注釈付き駆動LiDARフレームを備えたLiDARセンサーのマルチモーダルデータからなる新しいデータセットIDD-3Dを構築した。
論文 参考訳(メタデータ) (2022-10-23T23:03:17Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。