論文の概要: RMT-PPAD: Real-time Multi-task Learning for Panoptic Perception in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.06529v1
- Date: Sat, 02 Aug 2025 16:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.411887
- Title: RMT-PPAD: Real-time Multi-task Learning for Panoptic Perception in Autonomous Driving
- Title(参考訳): RMT-PPAD: 自律運転におけるパノプティクス知覚のためのリアルタイムマルチタスク学習
- Authors: Jiayuan Wang, Q. M. Jonathan Wu, Katsuya Suto, Ning Zhang,
- Abstract要約: RMT-PPADはリアルタイムトランスフォーマーベースのマルチタスクモデルである。
オブジェクト検出、ドライビング可能なエリアセグメンテーション、レーンラインセグメンテーションを共同で行う。
その結果,RTT-PPADは安定した性能が得られた。
- 参考スコア(独自算出の注目度): 18.945598464194607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving systems rely on panoptic driving perception that requires both precision and real-time performance. In this work, we propose RMT-PPAD, a real-time, transformer-based multi-task model that jointly performs object detection, drivable area segmentation, and lane line segmentation. We introduce a lightweight module, a gate control with an adapter to adaptively fuse shared and task-specific features, effectively alleviating negative transfer between tasks. Additionally, we design an adaptive segmentation decoder to learn the weights over multi-scale features automatically during the training stage. This avoids the manual design of task-specific structures for different segmentation tasks. We also identify and resolve the inconsistency between training and testing labels in lane line segmentation. This allows fairer evaluation. Experiments on the BDD100K dataset demonstrate that RMT-PPAD achieves state-of-the-art results with mAP50 of 84.9% and Recall of 95.4% for object detection, mIoU of 92.6% for drivable area segmentation, and IoU of 56.8% and accuracy of 84.7% for lane line segmentation. The inference speed reaches 32.6 FPS. Moreover, we introduce real-world scenarios to evaluate RMT-PPAD performance in practice. The results show that RMT-PPAD consistently delivers stable performance. The source codes and pre-trained models are released at https://github.com/JiayuanWang-JW/RMT-PPAD.
- Abstract(参考訳): 自律運転システムは、精度とリアルタイム性能の両方を必要とするパン光学駆動認識に依存している。
本研究では,実時間変圧器を用いたマルチタスクモデルであるRTT-PPADを提案する。
我々は,タスク間の負の伝達を効果的に軽減し,共有機能とタスク固有の機能を適応的に融合する,アダプタ付きゲート制御,ライトウェイトモジュールを導入する。
さらに,適応セグメントデコーダを設計し,訓練段階におけるマルチスケール機能に対する重み付けを自動的に学習する。
これにより、異なるセグメンテーションタスクのためのタスク固有の構造が手作業で設計されるのを避けることができる。
また、レーンラインセグメンテーションにおけるトレーニングとテストラベルの不整合を同定し、解決する。
これにより、より公平な評価が可能になる。
BDD100Kデータセットの実験では、RTT-PPADが84.9%のmAP50、95.4%のオブジェクト検出、92.6%の乾燥領域分割、56.8%のIoU、84.7%のレーン線分割で、最先端の結果を達成している。
推定速度は32.6FPSに達する。
さらに,実際にRTT-PPADの性能を評価するための実世界のシナリオについても紹介する。
その結果,RTT-PPADは安定した性能が得られた。
ソースコードと事前訓練されたモデルはhttps://github.com/JiayuanWang-JW/RMT-PPADで公開されている。
関連論文リスト
- Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything [117.02741621686677]
この研究はリアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を探索する。
インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。
動的畳み込みに基づく新しい動的畳み込み手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。
効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - You Only Look at Once for Real-time and Generic Multi-Task [20.61477620156465]
A-YOLOMは適応的でリアルタイムで軽量なマルチタスクモデルである。
我々は,統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
BDD100kデータセットで競合的な結果が得られます。
論文 参考訳(メタデータ) (2023-10-02T21:09:43Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Driver Maneuver Detection and Analysis using Time Series Segmentation
and Classification [7.413735713939367]
本稿では,自然主義運転環境下での車両遠隔計測データから車両の操作を自動的に検出する手法を実装した。
本研究の目的は、自然主義駆動学習ビデオのフレーム・バイ・フレームアノテーションのためのエンドツーエンドパイプラインを開発することである。
論文 参考訳(メタデータ) (2022-11-10T03:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。