論文の概要: M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.18100v1
- Date: Sun, 23 Mar 2025 15:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:31.350116
- Title: M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving
- Title(参考訳): M3Net: 自律運転における3次元検出・セグメンテーション・動作予測のためのマルチモーダルマルチタスク学習
- Authors: Xuesong Chen, Shaoshuai Shi, Tao Ma, Jingqiu Zhou, Simon See, Ka Chun Cheung, Hongsheng Li,
- Abstract要約: M3Netは、自動運転の検知、セグメンテーション、および3D占有率予測に同時に取り組む新しいネットワークである。
M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
- 参考スコア(独自算出の注目度): 48.17490295484055
- License:
- Abstract: The perception system for autonomous driving generally requires to handle multiple diverse sub-tasks. However, current algorithms typically tackle individual sub-tasks separately, which leads to low efficiency when aiming at obtaining full-perception results. Some multi-task learning methods try to unify multiple tasks with one model, but do not solve the conflicts in multi-task learning. In this paper, we introduce M3Net, a novel multimodal and multi-task network that simultaneously tackles detection, segmentation, and 3D occupancy prediction for autonomous driving and achieves superior performance than single task model. M3Net takes multimodal data as input and multiple tasks via query-token interactions. To enhance the integration of multi-modal features for multi-task learning, we first propose the Modality-Adaptive Feature Integration (MAFI) module, which enables single-modality features to predict channel-wise attention weights for their high-performing tasks, respectively. Based on integrated features, we then develop task-specific query initialization strategies to accommodate the needs of detection/segmentation and 3D occupancy prediction. Leveraging the properly initialized queries, a shared decoder transforms queries and BEV features layer-wise, facilitating multi-task learning. Furthermore, we propose a Task-oriented Channel Scaling (TCS) module in the decoder to mitigate conflicts between optimizing for different tasks. Additionally, our proposed multi-task querying and TCS module support both Transformer-based decoder and Mamba-based decoder, demonstrating its flexibility to different architectures. M3Net achieves state-of-the-art multi-task learning performance on the nuScenes benchmarks.
- Abstract(参考訳): 自律運転の認識システムは、一般的に複数の多様なサブタスクを扱う必要がある。
しかし、現在のアルゴリズムは個々のサブタスクを個別に扱うのが一般的であり、完全な知覚結果を得るためには効率が低下する。
いくつかのマルチタスク学習手法は、一つのモデルで複数のタスクを統一しようとするが、マルチタスク学習における競合を解決することはできない。
本稿では,自律運転における検出,セグメンテーション,3D占有率予測を同時に取り組んだ新しいマルチモーダル・マルチタスクネットワークであるM3Netを紹介し,単一タスクモデルよりも優れた性能を実現する。
M3Netはマルチモーダルデータを入力として、クエリーツーケンのインタラクションを通じて複数のタスクとして取り込む。
マルチタスク学習のためのマルチモーダル機能の統合を強化するため,我々はまず,単一モーダル機能を用いて,ハイパフォーマンスタスクに対するチャネルワイドの重み付けを予測できるモジュールMAFI(Modality-Adaptive Feature Integration)を提案する。
統合された機能に基づいて,検出/分割と3D占有率予測の必要性に対応するために,タスク固有のクエリ初期化戦略を開発する。
適切な初期化クエリを利用することで、共有デコーダはクエリを変換し、BEVは階層的に機能し、マルチタスク学習を容易にする。
さらに,デコーダにおけるタスク指向チャネルスケーリング(TCS)モジュールを提案する。
さらに,TransformerベースのデコーダとMambaベースのデコーダの両方をサポートし,異なるアーキテクチャに対する柔軟性を示すマルチタスククエリとTCSモジュールを提案する。
M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文 参考訳(メタデータ) (2023-02-19T03:48:46Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z) - NeurAll: Towards a Unified Visual Perception Model for Automated Driving [8.49826472556323]
本稿では,複数のタスクを同時に学習するためのマルチタスクネットワーク設計を提案する。
自動運転システムの主なボトルネックは、デプロイメントハードウェアで利用可能な限られた処理能力である。
論文 参考訳(メタデータ) (2019-02-10T12:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。