Fugu-MT 論文翻訳(概要): OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection

論文の概要: OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection

arxiv url: http://arxiv.org/abs/2411.17761v1
Date: Tue, 26 Nov 2024 01:50:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.376366
Title: OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection
Title（参考訳）: OpenAD:3Dオブジェクト検出のためのオープンワールド自律運転ベンチマーク
Authors: Zhongyu Xia, Jishuo Li, Zhiwei Lin, Xinhao Wang, Yongtao Wang, Ming-Hsuan Yang,
Abstract要約: OpenADは3Dオブジェクト検出のための世界初のオープンワールド自動運転ベンチマークである。 OpenADは、マルチモーダル大言語モデル(MLLM)と統合されたコーナーケースの発見とアノテーションパイプライン上に構築されている。
参考スコア（独自算出の注目度）: 47.9080685468069
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-world autonomous driving encompasses domain generalization and open-vocabulary. Domain generalization refers to the capabilities of autonomous driving systems across different scenarios and sensor parameter configurations. Open vocabulary pertains to the ability to recognize various semantic categories not encountered during training. In this paper, we introduce OpenAD, the first real-world open-world autonomous driving benchmark for 3D object detection. OpenAD is built on a corner case discovery and annotation pipeline integrating with a multimodal large language model (MLLM). The proposed pipeline annotates corner case objects in a unified format for five autonomous driving perception datasets with 2000 scenarios. In addition, we devise evaluation methodologies and evaluate various 2D and 3D open-world and specialized models. Moreover, we propose a vision-centric 3D open-world object detection baseline and further introduce an ensemble method by fusing general and specialized models to address the issue of lower precision in existing open-world methods for the OpenAD benchmark. Annotations, toolkit code, and all evaluation codes will be released.
Abstract（参考訳）: オープンワールド自動運転は、ドメインの一般化とオープン語彙を含む。ドメインの一般化(Domain generalization)とは、異なるシナリオとセンサーパラメータ設定をまたいだ自律運転システムの能力を指す。オープン語彙は、訓練中に遭遇しない様々な意味カテゴリーを認識する能力に関係している。本稿では,3次元物体検出のためのオープンワールド自動運転ベンチマークOpenADを紹介する。 OpenADは、マルチモーダルな大規模言語モデル(MLLM)と統合されたコーナーケースの発見とアノテーションパイプライン上に構築されている。提案したパイプラインは,2000のシナリオを持つ5つの自律走行認識データセットに対して,コーナーケースオブジェクトを統一形式で注釈付けする。さらに,評価手法を考案し,様々な2次元および3次元オープンワールドおよび特殊モデルの評価を行う。さらに,視覚中心の3次元オープンワールドオブジェクト検出ベースラインを提案し,OpenADベンチマークにおける既存のオープンワールドメソッドの精度の低い問題に対処するため,一般モデルと専門モデルとを融合してアンサンブル手法を提案する。アノテーション、ツールキットコード、およびすべての評価コードがリリースされる。

関連論文リスト

OpenEarthSensing: Large-Scale Fine-Grained Benchmark for Open-World Remote Sensing [57.050679160659705]
オープンワールドリモートセンシングのための大規模きめ細かいベンチマークであるOpenEarthSensingを紹介する。 OpenEarthSensingには189のシーンとオブジェクトが含まれており、現実世界で起こりうる潜在的なセマンティックシフトの大部分をカバーしている。我々はOpenEarthSensing上で,現在主流のオープンワールドタスクとメソッドのベースライン評価を行う。
論文参考訳（メタデータ） (2025-02-28T02:49:52Z)
Open-World Panoptic Segmentation [31.799000996671975]
オープンワールド・パノプティクス・セグメンテーションのためのアプローチであるCon2MAVを提案する。本研究では,オープンワールドセグメンテーションタスクにおける最先端の成果が得られたことを示す。また、自律運転シナリオにおけるオープンワールド・パン光学セグメンテーションを評価するためのベンチマークであるPANICを提案する。
論文参考訳（メタデータ） (2024-12-17T10:03:39Z)
Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文参考訳（メタデータ） (2024-11-25T18:59:17Z)
Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking [73.05477052645885]
オープンな語彙的3Dトラッキングを導入し、3Dトラッキングの範囲を広げて、定義済みのカテゴリを超えてオブジェクトを含める。本稿では,オープン語彙機能を3次元トラッキングフレームワークに統合し,オブジェクトクラスが見えないように一般化する手法を提案する。
論文参考訳（メタデータ） (2024-10-02T15:48:42Z)
Open 3D World in Autonomous Driving [6.876824330759794]
本稿では,LIDARセンサから取得した3Dポイントクラウドデータをテキスト情報と統合する手法を提案する。本稿では,鳥眼ビュー (BEV) 領域の特徴とテキスト特徴を融合するための効率的な枠組みを提案する。提案手法の有効性は,新たに導入されたNuScenes-Tデータセット上での広範囲な実験を通じて明確に評価されている。
論文参考訳（メタデータ） (2024-08-20T14:10:44Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D Data [42.37939270236269]
我々は、ビジョンとポイントクラウドデータのためのオープンソースのオープンソース語彙自動ラベルシステムOpenAnnotate3Dを紹介する。本システムは,大規模言語モデルのチェーン・オブ・シント機能と,視覚言語モデルの相互モダリティ機能を統合したシステムである。
論文参考訳（メタデータ） (2023-10-20T10:12:18Z)
Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous Driving [39.70689418558153]
本研究では,3次元ラベルを使わずに,オープンなカテゴリのモデルにアモーダルな3次元境界ボックスとトラックレットを生成できるマルチモーダル自動ラベルパイプラインを提案する。私たちのパイプラインは、ポイントクラウドシーケンスに固有のモーションキューと、利用可能な2Dイメージテキストペアを組み合わせて、すべてのトラフィック参加者を特定し、追跡します。
論文参考訳（メタデータ） (2023-09-25T19:33:52Z)
UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文参考訳（メタデータ） (2023-08-21T02:13:40Z)
DuEqNet: Dual-Equivariance Network in Outdoor 3D Object Detection for Autonomous Driving [4.489333751818157]
まず3次元物体検出ネットワークに等分散の概念を導入するDuEqNetを提案する。我々のモデルの双対同変は、局所的および大域的両方の同変的特徴を抽出することができる。本モデルでは, 配向精度が向上し, 予測効率が向上する。
論文参考訳（メタデータ） (2023-02-27T08:30:02Z)
Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。私達のアプローチは人間の相互作用なしで完全に自動です。 VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文参考訳（メタデータ） (2020-12-15T03:03:38Z)
Towards Autonomous Driving: a Multi-Modal 360$^{\circ}$ Perception Proposal [87.11988786121447]
本稿では,自動運転車の3次元物体検出と追跡のためのフレームワークを提案する。このソリューションは、新しいセンサ融合構成に基づいて、正確で信頼性の高い道路環境検出を提供する。自動運転車に搭載されたシステムの様々なテストは、提案された知覚スタックの適合性を評価することに成功している。
論文参考訳（メタデータ） (2020-08-21T20:36:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。