論文の概要: CrossRay3D: Geometry and Distribution Guidance for Efficient Multimodal 3D Detection
- arxiv url: http://arxiv.org/abs/2510.15991v1
- Date: Tue, 14 Oct 2025 02:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.755215
- Title: CrossRay3D: Geometry and Distribution Guidance for Efficient Multimodal 3D Detection
- Title(参考訳): CrossRay3D: 効率的なマルチモーダル3D検出のための幾何学と配電誘導
- Authors: Huiming Yang,
- Abstract要約: クロスモダリティ検出器は、Bird's-Eye-View(BEV)検出器よりも多くの利点を提供している。
既存のスパース検出器はトークン表現の質を見落とし、準最適品質と限られた性能を残している。
本稿では,形状構造とクラス分布がスパース検出器の性能向上の鍵であることを示す。
- 参考スコア(独自算出の注目度): 0.42303492200814446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparse cross-modality detector offers more advantages than its counterpart, the Bird's-Eye-View (BEV) detector, particularly in terms of adaptability for downstream tasks and computational cost savings. However, existing sparse detectors overlook the quality of token representation, leaving it with a sub-optimal foreground quality and limited performance. In this paper, we identify that the geometric structure preserved and the class distribution are the key to improving the performance of the sparse detector, and propose a Sparse Selector (SS). The core module of SS is Ray-Aware Supervision (RAS), which preserves rich geometric information during the training stage, and Class-Balanced Supervision, which adaptively reweights the salience of class semantics, ensuring that tokens associated with small objects are retained during token sampling. Thereby, outperforming other sparse multi-modal detectors in the representation of tokens. Additionally, we design Ray Positional Encoding (Ray PE) to address the distribution differences between the LiDAR modality and the image. Finally, we integrate the aforementioned module into an end-to-end sparse multi-modality detector, dubbed CrossRay3D. Experiments show that, on the challenging nuScenes benchmark, CrossRay3D achieves state-of-the-art performance with 72.4 mAP and 74.7 NDS, while running 1.84 faster than other leading methods. Moreover, CrossRay3D demonstrates strong robustness even in scenarios where LiDAR or camera data are partially or entirely missing.
- Abstract(参考訳): スパース・クロスモダリティ検出器は、特に下流のタスクへの適応性と計算コストの削減の観点から、バードズ・アイビュー(英語版)検出器(英語版)(BEV)よりも多くの利点を提供している。
しかし、既存のスパース検出器はトークン表現の質を見落とし、準最適前景の品質と限られた性能を残している。
本稿では,スパース検出器の性能向上の鍵となる幾何学的構造とクラス分布を同定し,スパースセレクタ(SS)を提案する。
SSの中核モジュールはレイ・アウェア・スーパービジョン(RAS)であり、トレーニング期間中に豊富な幾何学的情報を保存する。
これにより、トークンの表現において、他のスパースマルチモーダル検出器よりも優れる。
さらに、LiDARのモダリティと画像の分布差に対処するために、レイ位置符号化(Ray PE)を設計する。
最後に、上記のモジュールをCrossRay3Dと呼ばれる、エンドツーエンドのスパースマルチモード検出器に統合する。
実験によると、挑戦的なnuScenesベンチマークでは、CrossRay3Dは72.4 mAPと74.7 NDSで最先端のパフォーマンスを達成し、他の主要なメソッドよりも1.84高速に動作している。
さらに、CrossRay3Dは、LiDARやカメラデータが部分的に、あるいは完全に欠落しているシナリオにおいても、強い堅牢性を示す。
関連論文リスト
- SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts [13.349110509879312]
スパース制御された3Dオブジェクト検出は注目され、完全に教師された3Dオブジェクト・オブジェクタに近い性能を実現している。
本研究では,スパースアノテーション設定下での頑健な特徴識別機能を備えた3D検出器の強化を目的とした,SP3Dと呼ばれるブースティング戦略を提案する。
実験により、SP3Dはわずかに観察された検出器の性能を、平均的なラベル付け条件下で大きなマージンで向上させることができることが確認された。
論文 参考訳(メタデータ) (2025-03-09T06:08:04Z) - Long-Tailed 3D Detection via Multi-Modal Fusion [58.89765900064689]
本研究では,Long-Tailed 3D Detection (LT3D) の問題点について検討した。
単モードLiDARとRGB検出器を独立に訓練した多モード遅延核融合(MMLF)により,レアクラスの精度が特に向上することが指摘されている。
我々のMMLFはLT3Dの先行作業よりも優れており、特に12.8から20.0mAPまでの6つのレアなクラスで改善されています。
論文 参考訳(メタデータ) (2023-12-18T07:14:25Z) - Robust 3D Object Detection from LiDAR-Radar Point Clouds via Cross-Modal
Feature Augmentation [7.364627166256136]
本稿では,点雲からの3次元物体検出のための新しい枠組みを提案する。
背骨の微細化と幻覚発生を同時に行うために,空間的および特徴的に複数のアライメントを導入する。
View-of-Delftデータセットの実験により,提案手法は,レーダとLiDARの両方のオブジェクト検出において,最先端(SOTA)手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-29T15:46:59Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。