論文の概要: ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.13977v1
- Date: Tue, 19 Aug 2025 16:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.008902
- Title: ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving
- Title(参考訳): ROVR-Open-Dataset: 自動運転のための大規模深度データセット
- Authors: Xianda Guo, Ruijun Zhang, Yiqun Duan, Ruilin Wang, Keyuan Zhou, Wenzhao Zheng, Wenke Huang, Gangwei Xu, Mike Horton, Yuan Si, Hao Zhao, Long Chen,
- Abstract要約: 動的屋外運転環境における深度推定のための大規模・多種多様なフレームワイド連続データセットを提案する。
既存のデータセットと比較すると、駆動シナリオの多様性と深度密度の低下が示され、一般化のための新たな課題が生まれる。
- 参考スコア(独自算出の注目度): 16.84661057744478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation is a fundamental task for 3D scene understanding in autonomous driving, robotics, and augmented reality. Existing depth datasets, such as KITTI, nuScenes, and DDAD, have advanced the field but suffer from limitations in diversity and scalability. As benchmark performance on these datasets approaches saturation, there is an increasing need for a new generation of large-scale, diverse, and cost-efficient datasets to support the era of foundation models and multi-modal learning. To address these challenges, we introduce a large-scale, diverse, frame-wise continuous dataset for depth estimation in dynamic outdoor driving environments, comprising 20K video frames to evaluate existing methods. Our lightweight acquisition pipeline ensures broad scene coverage at low cost, while sparse yet statistically sufficient ground truth enables robust training. Compared to existing datasets, ours presents greater diversity in driving scenarios and lower depth density, creating new challenges for generalization. Benchmark experiments with standard monocular depth estimation models validate the dataset's utility and highlight substantial performance gaps in challenging conditions, establishing a new platform for advancing depth estimation research.
- Abstract(参考訳): 深さ推定は、自律運転、ロボット工学、拡張現実における3Dシーン理解の基本的なタスクである。
KITTI、nuScenes、DDADといった既存の深度データセットは、この分野を前進させたが、多様性とスケーラビリティの制限に悩まされている。
これらのデータセットのベンチマークパフォーマンスが飽和に近づくにつれて、ファンデーションモデルとマルチモーダルラーニングの時代をサポートするために、新しい世代の大規模で多種多様な費用効率のデータセットの必要性が高まっている。
これらの課題に対処するために、動的屋外運転環境における深度推定のための大規模で多種多様なフレーム単位の連続データセットを導入し、既存の手法を評価するための20Kビデオフレームを含む。
我々の軽量な買収パイプラインは、広いシーンを低コストでカバーできると同時に、統計的に十分な基礎的な真実は、堅牢なトレーニングを可能にします。
既存のデータセットと比較すると、駆動シナリオの多様性と深度密度の低下が示され、一般化のための新たな課題が生まれる。
標準単眼深度推定モデルによるベンチマーク実験は、データセットの有用性を評価し、挑戦的な条件における大幅なパフォーマンスギャップを強調し、深度推定研究を進めるための新しいプラットフォームを確立する。
関連論文リスト
- Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - UnLoc: Leveraging Depth Uncertainties for Floorplan Localization [80.55849461031879]
UnLocはフロアプラン内のシーケンシャルカメラローカライゼーションのための効率的なデータ駆動ソリューションである。
本研究では,不確実性推定を組み込んだ新しい確率モデルを導入し,深度予測を明示的な確率分布としてモデル化する。
我々はUnLocを大規模合成および実世界のデータセット上で評価し、精度とロバスト性の観点から大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-14T14:45:43Z) - Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。
LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。
ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文 参考訳(メタデータ) (2025-07-15T17:59:59Z) - Depth as Points: Center Point-based Depth Estimation [25.930620717806914]
タスク固有のデータセットとシナリオ固有のデータセットを短時間で作成する手法を開発した。
我々は,大規模なマルチタスク自動運転データセットであるVirDepthを構築した。
また,単分子深度推定のための軽量アーキテクチャであるCenterDepthを提案する。
論文 参考訳(メタデータ) (2025-04-26T03:04:05Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - Leveraging Stable Diffusion for Monocular Depth Estimation via Image Semantic Encoding [1.0445560141983634]
視覚的特徴から直接文脈情報を抽出する画像に基づくセマンティック埋め込みを提案する。
提案手法は,屋外シーンの処理におけるCLIP埋め込みの欠点に対処しながら,最先端モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-01T15:37:22Z) - Real-time Multi-view Omnidirectional Depth Estimation for Real Scenarios based on Teacher-Student Learning with Unlabeled Data [13.107135855680992]
本稿では,Rt-OmniMVS というエッジコンピューティングプラットフォームを対象とした全方向のリアルタイム深度推定手法を提案する。
実環境における高精度,堅牢性,一般化を実現するため,教師の学習戦略を導入する。
また,多視点魚眼カメラとエッジデバイスを用いた全方位深度センシングシステムであるHexaMODEを提案する。
論文 参考訳(メタデータ) (2024-09-12T08:44:35Z) - UdeerLID+: Integrating LiDAR, Image, and Relative Depth with Semi-Supervised [12.440461420762265]
道路分割は自動運転システムにとって重要な課題である。
我々の研究は、LiDARポイントクラウドデータ、ビジュアルイメージ、および相対深度マップを統合する革新的なアプローチを導入している。
主な課題の1つは、大規模で正確にラベル付けされたデータセットの不足である。
論文 参考訳(メタデータ) (2024-09-10T03:57:30Z) - PLT-D3: A High-fidelity Dynamic Driving Simulation Dataset for Stereo Depth and Scene Flow [0.0]
本稿では,エンジン5を用いて生成した高忠実度ステレオ深度およびシーンフローグラウンド真理データであるダイナミックウェザードライビングデータセットを紹介する。
特に、このデータセットには、様々な動的気象シナリオを再現する、同期された高解像度ステレオ画像シーケンスが含まれている。
Unreal-D3を用いたいくつかの重要な自動運転タスクのためのベンチマークが確立され、最先端モデルの性能を計測し、向上している。
論文 参考訳(メタデータ) (2024-06-11T19:21:46Z) - DINO-SD: Champion Solution for ICRA 2024 RoboDepth Challenge [54.71866583204417]
本稿では,新しいサラウンドビュー深度推定モデルであるDINO-SDを紹介する。
我々のDINO-SDは追加のデータを必要とせず、強い堅牢性を持っている。
DINO-SDは、ICRA 2024 RoboDepth Challengeのトラック4で最高のパフォーマンスを得られる。
論文 参考訳(メタデータ) (2024-05-27T12:21:31Z) - RSRD: A Road Surface Reconstruction Dataset and Benchmark for Safe and
Comfortable Autonomous Driving [67.09546127265034]
道路表面の再構築は、車両の走行計画と制御システムの解析と予測を促進するのに役立つ。
我々は,様々な運転条件下で,特定のプラットフォームで収集した実世界,高解像度,高精度のデータセットであるRoad Surface Reconstructionデータセットを紹介した。
約16,000対のステレオ画像、原点雲、地中深度・不均等地図を含む一般的な道路形態を網羅している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - RELLIS-3D Dataset: Data, Benchmarks and Analysis [16.803548871633957]
RELLIS-3Dはオフロード環境で収集されたマルチモーダルデータセットである。
データはテキサスA&M大学のRellis Campusで収集されました。
論文 参考訳(メタデータ) (2020-11-17T18:28:01Z) - Exploring the Impacts from Datasets to Monocular Depth Estimation (MDE)
Models with MineNavi [5.689127984415125]
ディープラーニングに基づく現在のコンピュータビジョンタスクは、モデルトレーニングやテストのためのアノテーションを備えた大量のデータを必要とする。
実際には、高密度推定タスクのための手動ラベリングは非常に困難または不可能であり、データセットのシーンは小さな範囲に制限されることが多い。
本稿では,手作業の負担を伴わない拡張可能なデータセットを得るための合成データセット生成手法を提案する。
論文 参考訳(メタデータ) (2020-08-19T14:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。