論文の概要: RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception
- arxiv url: http://arxiv.org/abs/2405.09883v1
- Date: Thu, 16 May 2024 08:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:01:20.799596
- Title: RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception
- Title(参考訳): RoScenes:ロードサイド認識のための大規模マルチビュー3Dデータセット
- Authors: Xiaosu Zhu, Hualian Sheng, Sijia Cai, Bing Deng, Shaopeng Yang, Qiao Liang, Ken Chen, Lianli Gao, Jingkuan Song, Jieping Ye,
- Abstract要約: RoScenesは、最大規模のマルチビューロードサイド認識データセットである。
私たちのデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m2$で達成しています。
- 参考スコア(独自算出の注目度): 98.76525636842177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce RoScenes, the largest multi-view roadside perception dataset, which aims to shed light on the development of vision-centric Bird's Eye View (BEV) approaches for more challenging traffic scenes. The highlights of RoScenes include significantly large perception area, full scene coverage and crowded traffic. More specifically, our dataset achieves surprising 21.13M 3D annotations within 64,000 $m^2$. To relieve the expensive costs of roadside 3D labeling, we present a novel BEV-to-3D joint annotation pipeline to efficiently collect such a large volume of data. After that, we organize a comprehensive study for current BEV methods on RoScenes in terms of effectiveness and efficiency. Tested methods suffer from the vast perception area and variation of sensor layout across scenes, resulting in performance levels falling below expectations. To this end, we propose RoBEV that incorporates feature-guided position embedding for effective 2D-3D feature assignment. With its help, our method outperforms state-of-the-art by a large margin without extra computational overhead on validation set. Our dataset and devkit will be made available at \url{https://github.com/xiaosu-zhu/RoScenes}.
- Abstract(参考訳): 我々は、視覚中心のBird's Eye View(BEV)アプローチの開発に光を当てることを目的として、最も大きなマルチビュー道路側認識データセットであるRoScenesを紹介した。
RoScenesのハイライトは、大きな認識領域、フルシーンカバレッジ、混雑したトラフィックである。
具体的には、我々のデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m^2$で達成している。
道路側3Dラベリングのコストを低減すべく,大量のデータを効率的に収集する新しいBEV-to-3D共同アノテーションパイプラインを提案する。
その後,RoScenesにおける現行のBEV手法に関する総合的な研究を,有効性と効率の観点から整理した。
テストされた手法は、広い知覚領域と、シーン間のセンサーレイアウトの変化に悩まされ、パフォーマンスレベルが期待を下回る結果となった。
そこで本稿では,効率的な2D-3D特徴割り当てのための特徴誘導位置埋め込みを組み込んだRoBEVを提案する。
その助けにより,本手法は,検証セットに余分な計算オーバーヘッドを伴わずに,最先端の手法よりも大きなマージンで性能を向上する。
私たちのデータセットとdevkitは、 \url{https://github.com/xiaosu-zhu/RoScenes}で利用可能になります。
関連論文リスト
- ROA-BEV: 2D Region-Oriented Attention for BEV-based 3D Object [14.219472370221029]
BEVに基づく3Dオブジェクト検出ネットワーク(ROA-BEV)のための2次元領域指向アテンションを提案する。
本手法は,マルチスケール構造を用いてROAの情報量を増加させる。
nuScenesの実験では、ROA-BEVはBEVDetとBEVDepthに基づいて性能を改善している。
論文 参考訳(メタデータ) (2024-10-14T08:51:56Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - SGV3D:Towards Scenario Generalization for Vision-based Roadside 3D Object Detection [27.991404725024953]
現在の視覚に基づく道路側検出法は,ラベル付きシーンでは精度が高いが,新しいシーンでは性能が劣る。
これは、ロードサイドカメラが設置後も静止しているためであり、その結果、これらのロードサイドの背景とカメラのポーズにアルゴリズムが適合しているためである。
我々は,SGV3Dと呼ばれる,視覚に基づく道路側3次元物体検出のための革新的なシナリオ一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T12:31:13Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - ONCE-3DLanes: Building Monocular 3D Lane Detection [41.46466150783367]
OnCE-3DLanesは3次元空間にレーンレイアウトアノテーションを付加した実世界の自律走行データセットである。
点雲と画像ピクセルとの明確な関係を利用して、データセットのアノテーションパイプラインは、高品質な3Dレーンの位置を自動的に生成するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T16:35:25Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。