論文の概要: OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2411.17761v2
- Date: Mon, 26 May 2025 03:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:52.980867
- Title: OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection
- Title(参考訳): OpenAD:3Dオブジェクト検出のためのオープンワールド自律運転ベンチマーク
- Authors: Zhongyu Xia, Jishuo Li, Zhiwei Lin, Xinhao Wang, Yongtao Wang, Ming-Hsuan Yang,
- Abstract要約: 本稿では,3次元物体検出のためのオープンワールド自動走行ベンチマークOpenADを紹介する。
OpenADは、マルチモーダルな大規模言語モデル(MLLM)と統合されたコーナーケースの発見とアノテーションパイプライン上に構築されている。
- 参考スコア(独自算出の注目度): 47.9080685468069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world perception aims to develop a model adaptable to novel domains and various sensor configurations and can understand uncommon objects and corner cases. However, current research lacks sufficiently comprehensive open-world 3D perception benchmarks and robust generalizable methodologies. This paper introduces OpenAD, the first real open-world autonomous driving benchmark for 3D object detection. OpenAD is built upon a corner case discovery and annotation pipeline that integrates with a multimodal large language model (MLLM). The proposed pipeline annotates corner case objects in a unified format for five autonomous driving perception datasets with 2000 scenarios. In addition, we devise evaluation methodologies and evaluate various open-world and specialized 2D and 3D models. Moreover, we propose a vision-centric 3D open-world object detection baseline and further introduce an ensemble method by fusing general and specialized models to address the issue of lower precision in existing open-world methods for the OpenAD benchmark. We host an online challenge on EvalAI. Data, toolkit codes, and evaluation codes are available at https://github.com/VDIGPKU/OpenAD.
- Abstract(参考訳): オープンワールド認識は、新しいドメインや様々なセンサー構成に対応可能なモデルを開発し、珍しいオブジェクトやコーナーケースを理解することを目的としている。
しかし、現在の研究では、十分に包括的なオープンワールドの3D知覚ベンチマークと堅牢な一般化可能な方法論が欠如している。
本稿では,3次元物体検出のためのオープンワールド自動走行ベンチマークOpenADを紹介する。
OpenADは、マルチモーダルな大規模言語モデル(MLLM)と統合されたコーナーケースの発見とアノテーションパイプライン上に構築されている。
提案したパイプラインは,2000のシナリオを持つ5つの自律走行認識データセットに対して,コーナーケースオブジェクトを統一形式で注釈付けする。
さらに,オープンワールドと専門的な2Dおよび3Dモデルの評価手法を考案し,評価を行った。
さらに,視覚中心の3次元オープンワールドオブジェクト検出ベースラインを提案し,OpenADベンチマークにおける既存のオープンワールドメソッドの精度の低い問題に対処するため,一般モデルと専門モデルとを融合してアンサンブル手法を提案する。
EvalAIのオンラインチャレンジをホストしています。
データ、ツールキットコード、評価コードはhttps://github.com/VDIGPKU/OpenAD.comで入手できる。
関連論文リスト
- 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - From Dataset to Real-world: General 3D Object Detection via Generalized Cross-domain Few-shot Learning [13.282416396765392]
本稿では,3次元オブジェクト検出においてGCFS(Generalized Cross-domain few-shot)タスクを導入する。
本ソリューションでは,マルチモーダル融合とコントラスト強化型プロトタイプ学習を1つのフレームワークに統合する。
限定対象データから各クラスに対するドメイン固有表現を効果的に捉えるために,コントラスト強化型プロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2025-03-08T17:05:21Z) - OpenEarthSensing: Large-Scale Fine-Grained Benchmark for Open-World Remote Sensing [57.050679160659705]
オープンワールドリモートセンシングのための大規模きめ細かいベンチマークであるOpenEarthSensingを紹介する。
OpenEarthSensingには189のシーンとオブジェクトが含まれており、現実世界で起こりうる潜在的なセマンティックシフトの大部分をカバーしている。
我々はOpenEarthSensing上で,現在主流のオープンワールドタスクとメソッドのベースライン評価を行う。
論文 参考訳(メタデータ) (2025-02-28T02:49:52Z) - Open-World Panoptic Segmentation [31.799000996671975]
オープンワールド・パノプティクス・セグメンテーションのためのアプローチであるCon2MAVを提案する。
本研究では,オープンワールドセグメンテーションタスクにおける最先端の成果が得られたことを示す。
また、自律運転シナリオにおけるオープンワールド・パン光学セグメンテーションを評価するためのベンチマークであるPANICを提案する。
論文 参考訳(メタデータ) (2024-12-17T10:03:39Z) - 3D-CDRGP: Towards Cross-Device Robotic Grasping Policy in 3D Open World [20.406334587479623]
デバイス間の研究は緊急の課題となり、取り組まなければならない。
私たちは、3Dオープンワールドにおけるクロスデバイス(カメラとロボティクス)の把握政策の先駆者です。
SSGC-Segモジュールは,カテゴリに依存しない3Dオブジェクト検出を可能にする。
論文 参考訳(メタデータ) (2024-11-27T08:23:28Z) - Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking [73.05477052645885]
オープンな語彙的3Dトラッキングを導入し、3Dトラッキングの範囲を広げて、定義済みのカテゴリを超えてオブジェクトを含める。
本稿では,オープン語彙機能を3次元トラッキングフレームワークに統合し,オブジェクトクラスが見えないように一般化する手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:48:42Z) - Open 3D World in Autonomous Driving [6.876824330759794]
本稿では,LIDARセンサから取得した3Dポイントクラウドデータをテキスト情報と統合する手法を提案する。
本稿では,鳥眼ビュー (BEV) 領域の特徴とテキスト特徴を融合するための効率的な枠組みを提案する。
提案手法の有効性は,新たに導入されたNuScenes-Tデータセット上での広範囲な実験を通じて明確に評価されている。
論文 参考訳(メタデータ) (2024-08-20T14:10:44Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D
Data [42.37939270236269]
我々は、ビジョンとポイントクラウドデータのためのオープンソースのオープンソース語彙自動ラベルシステムOpenAnnotate3Dを紹介する。
本システムは,大規模言語モデルのチェーン・オブ・シント機能と,視覚言語モデルの相互モダリティ機能を統合したシステムである。
論文 参考訳(メタデータ) (2023-10-20T10:12:18Z) - Unsupervised 3D Perception with 2D Vision-Language Distillation for
Autonomous Driving [39.70689418558153]
本研究では,3次元ラベルを使わずに,オープンなカテゴリのモデルにアモーダルな3次元境界ボックスとトラックレットを生成できるマルチモーダル自動ラベルパイプラインを提案する。
私たちのパイプラインは、ポイントクラウドシーケンスに固有のモーションキューと、利用可能な2Dイメージテキストペアを組み合わせて、すべてのトラフィック参加者を特定し、追跡します。
論文 参考訳(メタデータ) (2023-09-25T19:33:52Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - DuEqNet: Dual-Equivariance Network in Outdoor 3D Object Detection for
Autonomous Driving [4.489333751818157]
まず3次元物体検出ネットワークに等分散の概念を導入するDuEqNetを提案する。
我々のモデルの双対同変は、局所的および大域的両方の同変的特徴を抽出することができる。
本モデルでは, 配向精度が向上し, 予測効率が向上する。
論文 参考訳(メタデータ) (2023-02-27T08:30:02Z) - Towards Open Set 3D Learning: A Benchmark on Object Point Clouds [17.145309633743747]
本論文は,オープンセット3次元学習に関する第1報である。
カテゴリのセマンティックシフトの観点から,難易度を増すような新しいテストベッドを導入する。
本稿では,最新のアプローチが3Dデータに有効であるかどうか,その理解のために,アウト・オブ・ディストリビューションとオープン・セット2D文献について検討する。
論文 参考訳(メタデータ) (2022-07-23T17:00:45Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Towards Autonomous Driving: a Multi-Modal 360$^{\circ}$ Perception
Proposal [87.11988786121447]
本稿では,自動運転車の3次元物体検出と追跡のためのフレームワークを提案する。
このソリューションは、新しいセンサ融合構成に基づいて、正確で信頼性の高い道路環境検出を提供する。
自動運転車に搭載されたシステムの様々なテストは、提案された知覚スタックの適合性を評価することに成功している。
論文 参考訳(メタデータ) (2020-08-21T20:36:21Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。