論文の概要: CoreNet: Conflict Resolution Network for Point-Pixel Misalignment and Sub-Task Suppression of 3D LiDAR-Camera Object Detection
- arxiv url: http://arxiv.org/abs/2501.06550v1
- Date: Sat, 11 Jan 2025 14:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:39.213693
- Title: CoreNet: Conflict Resolution Network for Point-Pixel Misalignment and Sub-Task Suppression of 3D LiDAR-Camera Object Detection
- Title(参考訳): CoreNet: 3次元LiDARカメラオブジェクト検出の点線補正とサブタスク抑制のための衝突分解ネットワーク
- Authors: Yiheng Li, Yang Yang, Zhen Lei,
- Abstract要約: 現在の手法では2つの重要な矛盾を見落としている。
本稿では、上記の問題に対処するため、CoreNet(Conflict Resolution Network)という新しい手法を提案する。
大規模なnuScenesデータセットの実験は、提案したCoreNetの優位性を実証している。
- 参考スコア(独自算出の注目度): 16.37397687985041
- License:
- Abstract: Fusing multi-modality inputs from different sensors is an effective way to improve the performance of 3D object detection. However, current methods overlook two important conflicts: point-pixel misalignment and sub-task suppression. The former means a pixel feature from the opaque object is projected to multiple point features of the same ray in the world space, and the latter means the classification prediction and bounding box regression may cause mutual suppression. In this paper, we propose a novel method named Conflict Resolution Network (CoreNet) to address the aforementioned issues. Specifically, we first propose a dual-stream transformation module to tackle point-pixel misalignment. It consists of ray-based and point-based 2D-to-BEV transformations. Both of them achieve approximately unique mapping from the image space to the world space. Moreover, we introduce a task-specific predictor to tackle sub-task suppression. It uses the dual-branch structure which adopts class-specific query and Bbox-specific query to corresponding sub-tasks. Each task-specific query is constructed of task-specific feature and general feature, which allows the heads to adaptively select information of interest based on different sub-tasks. Experiments on the large-scale nuScenes dataset demonstrate the superiority of our proposed CoreNet, by achieving 75.6\% NDS and 73.3\% mAP on the nuScenes test set without test-time augmentation and model ensemble techniques. The ample ablation study also demonstrates the effectiveness of each component. The code is released on https://github.com/liyih/CoreNet.
- Abstract(参考訳): 異なるセンサからのマルチモーダル入力を融合させることは、3次元物体検出の性能向上に有効な方法である。
しかし、現在の手法では2つの重要な矛盾を見落としている。
前者は、不透明物体からの画素特徴を、世界空間における同一光線の複数点特徴に投影し、後者は分類予測と境界ボックス回帰が相互に抑制される可能性がある。
本稿では,上記の問題に対処するため,CoreNet (Conflict Resolution Network) という新しい手法を提案する。
具体的には、まず、点-画素ミスアライメントに対処するデュアルストリーム変換モジュールを提案する。
レイベースとポイントベース2D-to-BEV変換で構成されている。
どちらも、画像空間から世界空間への、ほぼ独自のマッピングを実現している。
さらに、タスク固有の予測器を導入し、サブタスク抑制に取り組む。
これは、クラス固有のクエリとBbox固有のクエリを対応するサブタスクに採用するデュアルブランチ構造を使用する。
各タスク固有のクエリはタスク固有の機能と一般的な機能で構成されており、ヘッドは異なるサブタスクに基づいて興味のある情報を適応的に選択することができる。
大規模な nuScenes データセットの実験では,テスト時間拡張やモデルアンサンブルを伴わない nuScenes テストセットで 75.6\% NDS と 73.3\% mAP を達成し,提案した CoreNet の優位性を実証した。
アンプルアブレーション研究は、各成分の有効性も示している。
コードはhttps://github.com/liyih/CoreNet.comで公開されている。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Density-Insensitive Unsupervised Domain Adaption on 3D Object Detection [19.703181080679176]
ポイントクラウドからの3Dオブジェクト検出は、安全クリティカルな自動運転において不可欠である。
本稿では,密度依存性ドメインギャップに対処する密度依存性ドメイン適応フレームワークを提案する。
3つの広く採用されている3次元オブジェクト検出データセットの実験結果から,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-04-19T06:33:07Z) - Task-Specific Context Decoupling for Object Detection [27.078743716924752]
排他的手法は通常、切り離された頭を使って各タスクの異なる特徴コンテキストを学習する。
本稿では,2つのタスクに対する特徴符号化をさらに切り離した新しいタスク特化コームテキストデカップリング(TSCODE)を提案する。
本手法は計算コストを抑えて1.0 AP以上の異なる検出器を安定的に改善する。
論文 参考訳(メタデータ) (2023-03-02T08:02:14Z) - Multi-patch Feature Pyramid Network for Weakly Supervised Object
Detection in Optical Remote Sensing Images [39.25541709228373]
マルチパッチ特徴ピラミッドネットワーク(MPFP-Net)を用いたオブジェクト検出のための新しいアーキテクチャを提案する。
MPFP-Netは、トレーニング中の最も差別的なパッチのみを追求する現在のモデルとは異なる。
残余値の正則化と核融合遷移層を厳密にノルム保存する有効な方法を提案する。
論文 参考訳(メタデータ) (2021-08-18T09:25:39Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。