論文の概要: MAESTRO: Task-Relevant Optimization via Adaptive Feature Enhancement and Suppression for Multi-task 3D Perception
- arxiv url: http://arxiv.org/abs/2509.17462v1
- Date: Mon, 22 Sep 2025 07:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.280277
- Title: MAESTRO: Task-Relevant Optimization via Adaptive Feature Enhancement and Suppression for Multi-task 3D Perception
- Title(参考訳): MAESTRO:マルチタスク3次元知覚のための適応的特徴強調と抑制によるタスク関連最適化
- Authors: Changwon Kang, Jisong Kim, Hongjae Shin, Junseo Park, Jun Won Choi,
- Abstract要約: MAESTROはタスク固有の特徴を生成し、マルチタスク3D知覚における特徴干渉を軽減するように設計されている。
3Dオブジェクト検出、BEVマップセグメンテーション、および3D占有予測タスクで、既存のメソッドを一貫して上回ります。
- 参考スコア(独自算出の注目度): 22.24923797096261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of multi-task learning is to learn to conduct multiple tasks simultaneously based on a shared data representation. While this approach can improve learning efficiency, it may also cause performance degradation due to task conflicts that arise when optimizing the model for different objectives. To address this challenge, we introduce MAESTRO, a structured framework designed to generate task-specific features and mitigate feature interference in multi-task 3D perception, including 3D object detection, bird's-eye view (BEV) map segmentation, and 3D occupancy prediction. MAESTRO comprises three components: the Class-wise Prototype Generator (CPG), the Task-Specific Feature Generator (TSFG), and the Scene Prototype Aggregator (SPA). CPG groups class categories into foreground and background groups and generates group-wise prototypes. The foreground and background prototypes are assigned to the 3D object detection task and the map segmentation task, respectively, while both are assigned to the 3D occupancy prediction task. TSFG leverages these prototype groups to retain task-relevant features while suppressing irrelevant features, thereby enhancing the performance for each task. SPA enhances the prototype groups assigned for 3D occupancy prediction by utilizing the information produced by the 3D object detection head and the map segmentation head. Extensive experiments on the nuScenes and Occ3D benchmarks demonstrate that MAESTRO consistently outperforms existing methods across 3D object detection, BEV map segmentation, and 3D occupancy prediction tasks.
- Abstract(参考訳): マルチタスク学習の目的は、共有データ表現に基づいて複数のタスクを同時に実行することを学習することである。
このアプローチは学習効率を向上させることができるが、異なる目的のためにモデルを最適化する際に発生するタスクの衝突によってパフォーマンスが低下する可能性がある。
この課題に対処するために,3Dオブジェクト検出,鳥眼ビュー(BEV)マップセグメンテーション,および3D占有予測など,タスク固有の特徴を生成し,マルチタスク3D知覚における特徴干渉を軽減するために設計された構造化フレームワークであるMAESTROを紹介した。
MAESTROは、CPG(Class-wise Prototype Generator)、TSFG(Task-Specific Feature Generator)、Scene Prototype Aggregator(SPA)の3つのコンポーネントから構成されている。
CPGグループは、フォアグラウンドとバックグラウンドグループに分類し、グループワイドプロトタイプを生成する。
前景と背景のプロトタイプはそれぞれ3Dオブジェクト検出タスクとマップセグメンテーションタスクに割り当てられ、どちらも3D占有予測タスクに割り当てられる。
TSFGはこれらのプロトタイプグループを活用し、タスク関連の特徴を抑えつつタスク関連の特徴を保ち、各タスクのパフォーマンスを向上させる。
SPAは、3Dオブジェクト検出ヘッドとマップセグメンテーションヘッドが生成した情報を利用して、3D占有予測に割り当てられたプロトタイプグループを強化する。
nuScenesとOcc3Dベンチマークの大規模な実験により、MAESTROは3Dオブジェクト検出、BEVマップセグメンテーション、および3D占有率予測タスクにおいて、既存の手法よりも一貫して優れていることが示された。
関連論文リスト
- MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation [14.67253585778639]
MaskBEVは、マスキングによるマルチタスク学習パラダイムである。
3Dオブジェクトの検出と鳥の目視(BEV)マップのセグメンテーションを統一する。
3Dオブジェクト検出の1.3 NDS改善とBEVマップセグメンテーションの2.7 mIoU改善を実現している。
論文 参考訳(メタデータ) (2024-08-17T07:11:38Z) - Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。