論文の概要: ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.13977v2
- Date: Tue, 16 Sep 2025 04:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 15:46:32.907973
- Title: ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving
- Title(参考訳): ROVR-Open-Dataset: 自動運転のための大規模深度データセット
- Authors: Xianda Guo, Ruijun Zhang, Yiqun Duan, Ruilin Wang, Matteo Poggi, Keyuan Zhou, Wenzhao Zheng, Wenke Huang, Gangwei Xu, Mike Horton, Yuan Si, Qin Zou, Hao Zhao, Long Chen,
- Abstract要約: 実世界の運転の複雑さを捉えるために設計された,大規模で多様で費用効率のよい深度データセットであるROVRを提案する。
軽量な取得パイプラインは、スケーラブルなコレクションを保証すると同時に、統計的に十分な基礎的真実は堅牢なトレーニングをサポートする。
最先端の単分子深度モデルによるベンチマークでは、厳密なクロスデータセットの一般化失敗が示される。
- 参考スコア(独自算出の注目度): 62.9051914830949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation is a fundamental task for 3D scene understanding in autonomous driving, robotics, and augmented reality. Existing depth datasets, such as KITTI, nuScenes, and DDAD, have advanced the field but suffer from limitations in diversity and scalability. As benchmark performance on these datasets approaches saturation, there is an increasing need for a new generation of large-scale, diverse, and cost-efficient datasets to support the era of foundation models and multi-modal learning. We present ROVR, a large-scale, diverse, and cost-efficient depth dataset designed to capture the complexity of real-world driving. ROVR comprises 200K high-resolution frames across highway, rural, and urban scenarios, spanning day/night and adverse weather conditions. A lightweight acquisition pipeline ensures scalable collection, while sparse but statistically sufficient ground truth supports robust training. Benchmarking with state-of-the-art monocular depth models reveals severe cross-dataset generalization failures: models achieving near-ceiling accuracy on KITTI degrade drastically on ROVR, and even when trained on ROVR, current methods fall short of saturation. These results highlight the unique challenges posed by ROVR-scene diversity, dynamic environments, and sparse ground truth, establishing it as a demanding new platform for advancing depth estimation and building models with stronger real-world robustness. Extensive ablation studies provide a more intuitive understanding of our dataset across different scenarios, lighting conditions, and generalized ability.
- Abstract(参考訳): 深さ推定は、自律運転、ロボット工学、拡張現実における3Dシーン理解の基本的なタスクである。
KITTI、nuScenes、DDADといった既存の深度データセットは、この分野を前進させたが、多様性とスケーラビリティの制限に悩まされている。
これらのデータセットのベンチマークパフォーマンスが飽和に近づくにつれて、ファンデーションモデルとマルチモーダルラーニングの時代をサポートするために、新しい世代の大規模で多種多様な費用効率のデータセットの必要性が高まっている。
実世界の運転の複雑さを捉えるために設計された,大規模で多様で費用効率のよい深度データセットであるROVRを提案する。
ROVRは、ハイウェイ、農村、都市のシナリオにまたがる200Kの高解像度フレームで構成されており、昼夜と悪天候にまたがっている。
軽量な取得パイプラインは、スケーラブルなコレクションを保証すると同時に、統計的に十分な基礎的真実は堅牢なトレーニングをサポートする。
最先端のモノクル深度モデルによるベンチマークでは、KITTIのニアシーリング精度を達成するモデルは、ROVRで大幅に劣化し、ROVRでトレーニングされた場合でも、現在の手法は飽和に欠ける。
これらの結果は、ROVRが生み出す多様性、動的環境、疎外的な真実によって引き起こされる固有の課題を浮き彫りにし、より強力な現実世界の堅牢性を持つモデルの構築と深度推定を推し進めるための新たなプラットフォームとして確立した。
大規模なアブレーション研究は、さまざまなシナリオ、照明条件、一般化された能力にまたがって、データセットをより直感的に理解します。
関連論文リスト
- Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。
LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。
ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文 参考訳(メタデータ) (2025-07-15T17:59:59Z) - Depth as Points: Center Point-based Depth Estimation [25.930620717806914]
タスク固有のデータセットとシナリオ固有のデータセットを短時間で作成する手法を開発した。
我々は,大規模なマルチタスク自動運転データセットであるVirDepthを構築した。
また,単分子深度推定のための軽量アーキテクチャであるCenterDepthを提案する。
論文 参考訳(メタデータ) (2025-04-26T03:04:05Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - Leveraging Stable Diffusion for Monocular Depth Estimation via Image Semantic Encoding [1.0445560141983634]
視覚的特徴から直接文脈情報を抽出する画像に基づくセマンティック埋め込みを提案する。
提案手法は,屋外シーンの処理におけるCLIP埋め込みの欠点に対処しながら,最先端モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-01T15:37:22Z) - UdeerLID+: Integrating LiDAR, Image, and Relative Depth with Semi-Supervised [12.440461420762265]
道路分割は自動運転システムにとって重要な課題である。
我々の研究は、LiDARポイントクラウドデータ、ビジュアルイメージ、および相対深度マップを統合する革新的なアプローチを導入している。
主な課題の1つは、大規模で正確にラベル付けされたデータセットの不足である。
論文 参考訳(メタデータ) (2024-09-10T03:57:30Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - RELLIS-3D Dataset: Data, Benchmarks and Analysis [16.803548871633957]
RELLIS-3Dはオフロード環境で収集されたマルチモーダルデータセットである。
データはテキサスA&M大学のRellis Campusで収集されました。
論文 参考訳(メタデータ) (2020-11-17T18:28:01Z) - Exploring the Impacts from Datasets to Monocular Depth Estimation (MDE)
Models with MineNavi [5.689127984415125]
ディープラーニングに基づく現在のコンピュータビジョンタスクは、モデルトレーニングやテストのためのアノテーションを備えた大量のデータを必要とする。
実際には、高密度推定タスクのための手動ラベリングは非常に困難または不可能であり、データセットのシーンは小さな範囲に制限されることが多い。
本稿では,手作業の負担を伴わない拡張可能なデータセットを得るための合成データセット生成手法を提案する。
論文 参考訳(メタデータ) (2020-08-19T14:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。