論文の概要: UV-M3TL: A Unified and Versatile Multimodal Multi-Task Learning Framework for Assistive Driving Perception
- arxiv url: http://arxiv.org/abs/2602.01594v1
- Date: Mon, 02 Feb 2026 03:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.880225
- Title: UV-M3TL: A Unified and Versatile Multimodal Multi-Task Learning Framework for Assistive Driving Perception
- Title(参考訳): UV-M3TL: 補助駆動知覚のための統一型マルチモーダルマルチタスク学習フレームワーク
- Authors: Wenzhuo Liu, Qiannan Guo, Zhen Wang, Wenshuo Wang, Lei Yang, Yicheng Qiao, Lening Wang, Zhiwei Li, Chen Lv, Shanghang Zhang, Junqiang Xi, Huaping Liu,
- Abstract要約: 運転者の行動、運転者の感情、車両の行動、交通状況を同時に認識する枠組みを提案する。
本フレームワークは,デュアルブランチ空間チャネルのマルチモーダル埋め込みと適応的特徴分離型マルチタスク損失の2つのコアコンポーネントを組み込んでいる。
提案手法をAIDEデータセット上で評価し,UV-M3TLが4つのタスクすべてにおいて最先端の性能を達成することを示す実験結果を得た。
- 参考スコア(独自算出の注目度): 71.19234323863314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced Driver Assistance Systems (ADAS) need to understand human driver behavior while perceiving their navigation context, but jointly learning these heterogeneous tasks would cause inter-task negative transfer and impair system performance. Here, we propose a Unified and Versatile Multimodal Multi-Task Learning (UV-M3TL) framework to simultaneously recognize driver behavior, driver emotion, vehicle behavior, and traffic context, while mitigating inter-task negative transfer. Our framework incorporates two core components: dual-branch spatial channel multimodal embedding (DB-SCME) and adaptive feature-decoupled multi-task loss (AFD-Loss). DB-SCME enhances cross-task knowledge transfer while mitigating task conflicts by employing a dual-branch structure to explicitly model salient task-shared and task-specific features. AFD-Loss improves the stability of joint optimization while guiding the model to learn diverse multi-task representations by introducing an adaptive weighting mechanism based on learning dynamics and feature decoupling constraints. We evaluate our method on the AIDE dataset, and the experimental results demonstrate that UV-M3TL achieves state-of-the-art performance across all four tasks. To further prove the versatility, we evaluate UV-M3TL on additional public multi-task perception benchmarks (BDD100K, CityScapes, NYUD-v2, and PASCAL-Context), where it consistently delivers strong performance across diverse task combinations, attaining state-of-the-art results on most tasks.
- Abstract(参考訳): 高度な運転支援システム(ADAS)は、ナビゲーションコンテキストを認識しながら人間の運転行動を理解する必要があるが、これら不均一なタスクを共同で学習することは、タスク間の負の移動とシステム性能を損なう。
本稿では,運転者の動作,運転者の感情,車両の動作,交通状況を同時に認識すると同時に,タスク間負の伝達を緩和する,統一型マルチモーダル・マルチタスク学習(UV-M3TL)フレームワークを提案する。
本フレームワークは, マルチモーダル埋め込み (DB-SCME) と適応型機能分離型マルチタスクロス (AFD-Loss) の2つのコアコンポーネントを組み込んでいる。
DB-SCMEは、タスクの衝突を軽減しつつ、タスク共有とタスク固有の特徴を明確にモデル化するためにデュアルブランチ構造を用いて、クロスタスクの知識伝達を強化する。
AFD-Lossは、学習力学と特徴分離制約に基づく適応重み付け機構を導入し、モデルに多様なマルチタスク表現を学習させるとともに、関節最適化の安定性を向上させる。
提案手法をAIDEデータセット上で評価し,UV-M3TLが4つのタスクすべてにおいて最先端の性能を達成することを示す実験結果を得た。
この汎用性をさらに証明するため、UV-M3TLをBDD100K、CityScapes、NYUD-v2、PASCAL-Contextといった公開マルチタスク認識ベンチマークで評価し、さまざまなタスクの組み合わせに対して一貫して高いパフォーマンスを提供し、ほとんどのタスクで最先端の結果が得られるようにした。
関連論文リスト
- TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving [22.22943635900334]
TEM3-Learningは、ドライバーの感情認識、運転者行動認識、交通状況認識、車両行動認識を共同で最適化する新しいフレームワークである。
4つのタスクにまたがって最先端の精度を実現し、600万パラメータ未満の軽量アーキテクチャを維持し、142.32 FPSの推論速度を実現している。
論文 参考訳(メタデータ) (2025-06-22T16:12:27Z) - MMTL-UniAD: A Unified Framework for Multimodal and Multi-Task Learning in Assistive Driving Perception [22.18509264125815]
MMTL-UniADはマルチモーダルなマルチタスク学習フレームワークである。
ドライバーの行動(例えば、周りを見回したり話したり)、ドライバーの感情(例えば、不安、幸福)、車両の挙動(例えば、駐車、旋回)、交通状況(例えば、交通渋滞、交通のスムーズさ)を同時に認識する。
論文 参考訳(メタデータ) (2025-04-03T04:23:27Z) - M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving [48.17490295484055]
M3Netは、自動運転の検知、セグメンテーション、および3D占有率予測に同時に取り組む新しいネットワークである。
M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
論文 参考訳(メタデータ) (2025-03-23T15:08:09Z) - AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Understanding and Improving Information Transfer in Multi-Task Learning [14.43111978531182]
すべてのタスクに対して共有モジュール,各タスクに対して別個の出力モジュールを備えたアーキテクチャについて検討する。
タスクデータ間の不一致が負の転送(または性能の低下)を引き起こし、ポジティブな転送に十分な条件を提供することを示す。
理論的洞察から着想を得た結果,タスクの埋め込みレイヤの整合がマルチタスクトレーニングやトランスファー学習のパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-05-02T23:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。