論文の概要: OV-SCAN: Semantically Consistent Alignment for Novel Object Discovery in Open-Vocabulary 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.06435v1
- Date: Sun, 09 Mar 2025 04:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:59.645992
- Title: OV-SCAN: Semantically Consistent Alignment for Novel Object Discovery in Open-Vocabulary 3D Object Detection
- Title(参考訳): OV-SCAN:オープンボキャブラリ3次元物体検出における新しい物体発見のための意味的に一貫性のあるアライメント
- Authors: Adrian Chow, Evelien Riddell, Yimu Wang, Sean Sedwards, Krzysztof Czarnecki,
- Abstract要約: OV-SCANはオープンVocabulary 3Dフレームワークで、新規オブジェクト発見のためにセマンティック一貫性アライメントを強制する。
OV-SCANは、正確な3Dアノテーションを発見し、低品質または劣化したアライメントペアをフィルタリングする2つの中核戦略を採用している。
- 参考スコア(独自算出の注目度): 6.449894994514711
- License:
- Abstract: Open-vocabulary 3D object detection for autonomous driving aims to detect novel objects beyond the predefined training label sets in point cloud scenes. Existing approaches achieve this by connecting traditional 3D object detectors with vision-language models (VLMs) to regress 3D bounding boxes for novel objects and perform open-vocabulary classification through cross-modal alignment between 3D and 2D features. However, achieving robust cross-modal alignment remains a challenge due to semantic inconsistencies when generating corresponding 3D and 2D feature pairs. To overcome this challenge, we present OV-SCAN, an Open-Vocabulary 3D framework that enforces Semantically Consistent Alignment for Novel object discovery. OV-SCAN employs two core strategies: discovering precise 3D annotations and filtering out low-quality or corrupted alignment pairs (arising from 3D annotation, occlusion-induced, or resolution-induced noise). Extensive experiments on the nuScenes dataset demonstrate that OV-SCAN achieves state-of-the-art performance.
- Abstract(参考訳): 自律運転のためのオープンな3Dオブジェクト検出は、ポイントクラウドシーンにおける事前定義されたトレーニングラベルセットを超えて、新しいオブジェクトを検出することを目的としている。
既存のアプローチでは、従来の3Dオブジェクト検出器と視覚言語モデル(VLM)を接続して、新しいオブジェクトの3Dバウンディングボックスを後退させ、3D特徴と2D特徴の相互アライメントを通じてオープン語彙分類を行う。
しかし、3次元特徴対と2次元特徴対を生成する際に意味的不整合が生じるため、ロバストなクロスモーダルアライメントを実現することは依然として課題である。
この課題を克服するために,新規オブジェクト発見のためのセマンティック一貫性アライメントを強制するOpen-Vocabulary 3DフレームワークであるOV-SCANを提案する。
OV-SCANは、正確な3Dアノテーションを発見し、低品質または劣化したアライメントペアをフィルタリングする(3Dアノテーション、オクルージョン誘発、あるいは分解誘導ノイズから生じる)。
nuScenesデータセットに関する大規模な実験は、OV-SCANが最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [34.91703960513125]
CoDAv2は、新しい3Dオブジェクトのローカライズと分類の両方に取り組むために設計された統一フレームワークである。
CoDAv2は、高いマージンで最高のパフォーマンスの方法より優れている。
ソースコードと事前トレーニングされたモデルはGitHubプロジェクトページで公開されている。
論文 参考訳(メタデータ) (2024-06-02T18:32:37Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for
Open-vocabulary 3D Object Detection [38.144357345583664]
Open-vocabulary 3D Object Detection (OV-3DDet)は、3Dシーン内の任意のカテゴリのリストからオブジェクトを検出することを目的としている。
本論文は, 限定された基本カテゴリーの条件下で, 統一された枠組みを用いて, 2つの問題を同時に解決することを目的とする。
新規な3Dオブジェクトをローカライズするために,従来の3Dボックス幾何と2Dセマンティックなオープン語彙の両方を用いて,新規なオブジェクトの擬似ボックスラベルを生成する,効果的な3D新規オブジェクト発見戦略を提案する。
論文 参考訳(メタデータ) (2023-10-04T16:50:51Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。