論文の概要: Radar-Camera BEV Multi-Task Learning with Cross-Task Attention Bridge for Joint 3D Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2604.12918v1
- Date: Tue, 14 Apr 2026 16:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.552504
- Title: Radar-Camera BEV Multi-Task Learning with Cross-Task Attention Bridge for Joint 3D Detection and Segmentation
- Title(参考訳): 3次元共同検出・分割のためのクロスタスクアテンションブリッジを用いたレーダカメラBEVマルチタスク学習
- Authors: Ahmet İnanç, Özgür Erkent,
- Abstract要約: textbfCTAB (Cross-Task Attention Bridge) は,検出とセグメンテーションのブランチ間で特徴を交換するモジュールである。
nuScenesでは、CTABは基本的に中立な検出において、関節のマルチタスクベースライン上の7クラスのセグメンテーションを改善している。
4種類のサブセット(運転可能エリア,歩行者横断,歩道,車両)では,共同マルチタスクモデルが4つのクラスでmIoUに到達し,同時に3D検出が可能となった。
- 参考スコア(独自算出の注目度): 0.6187780920448871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's-eye-view (BEV) representations are the dominant paradigm for 3D perception in autonomous driving, providing a unified spatial canvas where detection and segmentation features are geometrically registered to the same physical coordinate system. However, existing radar-camera fusion methods treat these tasks in isolation, missing the opportunity to share complementary information between them: detection features encode object-level geometry that can sharpen segmentation boundaries, while segmentation features provide dense semantic context that can anchor detection. We propose \textbf{CTAB} (Cross-Task Attention Bridge), a bidirectional module that exchanges features between detection and segmentation branches via multi-scale deformable attention in shared BEV space. CTAB is integrated into a multi-task framework with an Instance Normalization-based segmentation decoder and learnable BEV upsampling to provide a more detailed BEV representation. On nuScenes, CTAB improves segmentation on 7 classes over the joint multi-task baseline at essentially neutral detection. On a 4-class subset (drivable area, pedestrian crossing, walkway, vehicle), our joint multi-task model reaches comparable mIoU on 4 classes while simultaneously providing 3D detection.
- Abstract(参考訳): バードアイビュー(Bird's-eye-view、BEV)の表現は、自律運転における3次元知覚において支配的なパラダイムであり、同じ物理座標系に、検出とセグメンテーションの特徴が幾何学的に登録されるような、統一された空間キャンバスを提供する。
しかし、既存のレーダー・カメラ融合法では、これらのタスクを分離して処理し、それら間で補完的な情報を共有する機会を欠いている: 検出機能はセグメンテーション境界を鋭くするオブジェクトレベルの幾何学を符号化し、セグメンテーション機能は、検出をアンカーできる密集したセグメンテーションコンテキストを提供する。
本稿では,共有BEV空間における複数スケールの変形可能な注意による検出とセグメンテーションブランチ間の特徴を交換する双方向モジュールである「textbf{CTAB} (Cross-Task Attention Bridge)」を提案する。
CTABは、インスタンス正規化に基づくセグメンテーションデコーダと学習可能なBEVアップサンプリングを備えたマルチタスクフレームワークに統合され、より詳細なBEV表現を提供する。
nuScenesでは、CTABは基本的に中立な検出において、関節のマルチタスクベースライン上の7クラスのセグメンテーションを改善している。
4種類のサブセット(運転可能エリア,歩行者横断,歩道,車両)では,共同マルチタスクモデルが4つのクラスでmIoUに到達し,同時に3D検出が可能となった。
関連論文リスト
- MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation [14.67253585778639]
MaskBEVは、マスキングによるマルチタスク学習パラダイムである。
3Dオブジェクトの検出と鳥の目視(BEV)マップのセグメンテーションを統一する。
3Dオブジェクト検出の1.3 NDS改善とBEVマップセグメンテーションの2.7 mIoU改善を実現している。
論文 参考訳(メタデータ) (2024-08-17T07:11:38Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - A Versatile Multi-View Framework for LiDAR-based 3D Object Detection
with Guidance from Panoptic Segmentation [9.513467995188634]
LiDARデータを用いた3Dオブジェクト検出は、自律運転システムにとって必須のコンポーネントである。
本稿では,3次元物体検出とパノプティックセグメンテーションを共同で行う新しいマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-04T04:57:05Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D
Point Clouds [37.703770427574476]
本稿では,初めて3次元意味的エッジ検出タスクに取り組む。
本稿では,2つのタスクを共同で行う2ストリーム完全畳み込みネットワークを提案する。
特に,両タスクの性能向上のために,領域情報とエッジ情報を明示的に関連付ける共同改良モジュールを設計する。
論文 参考訳(メタデータ) (2020-07-14T08:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。