論文の概要: TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving
- arxiv url: http://arxiv.org/abs/2506.18084v1
- Date: Sun, 22 Jun 2025 16:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.737945
- Title: TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving
- Title(参考訳): TEM^3-Learning:高度補助駆動のための時間効率マルチモーダルマルチタスク学習
- Authors: Wenzhuo Liu, Yicheng Qiao, Zhen Wang, Qiannan Guo, Zilong Chen, Meihua Zhou, Xinran Li, Letian Wang, Zhiwei Li, Huaping Liu, Wenshuo Wang,
- Abstract要約: TEM3-Learningは、ドライバーの感情認識、運転者行動認識、交通状況認識、車両行動認識を共同で最適化する新しいフレームワークである。
4つのタスクにまたがって最先端の精度を実現し、600万パラメータ未満の軽量アーキテクチャを維持し、142.32 FPSの推論速度を実現している。
- 参考スコア(独自算出の注目度): 22.22943635900334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task learning (MTL) can advance assistive driving by exploring inter-task correlations through shared representations. However, existing methods face two critical limitations: single-modality constraints limiting comprehensive scene understanding and inefficient architectures impeding real-time deployment. This paper proposes TEM^3-Learning (Time-Efficient Multimodal Multi-task Learning), a novel framework that jointly optimizes driver emotion recognition, driver behavior recognition, traffic context recognition, and vehicle behavior recognition through a two-stage architecture. The first component, the mamba-based multi-view temporal-spatial feature extraction subnetwork (MTS-Mamba), introduces a forward-backward temporal scanning mechanism and global-local spatial attention to efficiently extract low-cost temporal-spatial features from multi-view sequential images. The second component, the MTL-based gated multimodal feature integrator (MGMI), employs task-specific multi-gating modules to adaptively highlight the most relevant modality features for each task, effectively alleviating the negative transfer problem in MTL. Evaluation on the AIDE dataset, our proposed model achieves state-of-the-art accuracy across all four tasks, maintaining a lightweight architecture with fewer than 6 million parameters and delivering an impressive 142.32 FPS inference speed. Rigorous ablation studies further validate the effectiveness of the proposed framework and the independent contributions of each module. The code is available on https://github.com/Wenzhuo-Liu/TEM3-Learning.
- Abstract(参考訳): マルチタスク学習(MTL)は、共有表現を通してタスク間相関を探索することにより、補助駆動を促進することができる。
しかし、既存のメソッドは2つの重要な制限に直面している: 単一モダリティの制約は、包括的なシーンの理解を制限し、非効率なアーキテクチャは、リアルタイムのデプロイメントを妨げる。
本稿では,ドライバーの感情認識,ドライバの行動認識,交通状況認識,車両の行動認識を2段階アーキテクチャで協調的に最適化するTEM^3-Learning(Time-Efficient Multimodal Multi-task Learning)を提案する。
第1のコンポーネントであるマルチビュー時空間特徴抽出サブネットワーク(MTS-Mamba)では,マルチビューシーケンシャル画像から低コスト時空間特徴を効率的に抽出するために,前向き時空間走査機構と大域的空間的注意が導入された。
第2のコンポーネントであるMTLベースのゲートマルチモーダル機能インテグレータ(MGMI)では、タスク固有のマルチゲーティングモジュールを使用して、タスク毎の最も関連性の高いモダリティ特徴を適応的に強調し、MTLにおける負の転送問題を効果的に緩和する。
AIDEデータセットを評価した結果,提案モデルは4つのタスクのすべてにわたって最先端の精度を達成し,600万パラメータ未満の軽量アーキテクチャを維持し,142.32 FPS推論速度を実現している。
厳密なアブレーション研究は、提案したフレームワークの有効性と各モジュールの独立な寄与をさらに検証する。
コードはhttps://github.com/Wenzhuo-Liu/TEM3-Learningで公開されている。
関連論文リスト
- MMTL-UniAD: A Unified Framework for Multimodal and Multi-Task Learning in Assistive Driving Perception [22.18509264125815]
MMTL-UniADはマルチモーダルなマルチタスク学習フレームワークである。
ドライバーの行動(例えば、周りを見回したり話したり)、ドライバーの感情(例えば、不安、幸福)、車両の挙動(例えば、駐車、旋回)、交通状況(例えば、交通渋滞、交通のスムーズさ)を同時に認識する。
論文 参考訳(メタデータ) (2025-04-03T04:23:27Z) - M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving [48.17490295484055]
M3Netは、自動運転の検知、セグメンテーション、および3D占有率予測に同時に取り組む新しいネットワークである。
M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
論文 参考訳(メタデータ) (2025-03-23T15:08:09Z) - Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。