論文の概要: MMTL-UniAD: A Unified Framework for Multimodal and Multi-Task Learning in Assistive Driving Perception
- arxiv url: http://arxiv.org/abs/2504.02264v1
- Date: Thu, 03 Apr 2025 04:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:38.433548
- Title: MMTL-UniAD: A Unified Framework for Multimodal and Multi-Task Learning in Assistive Driving Perception
- Title(参考訳): MMTL-UniAD:支援運転知覚におけるマルチモーダル・マルチタスク学習のための統一フレームワーク
- Authors: Wenzhuo Liu, Wenshuo Wang, Yicheng Qiao, Qiannan Guo, Jiayin Zhu, Pengfei Li, Zilong Chen, Huiming Yang, Zhiwei Li, Lening Wang, Tiao Tan, Huaping Liu,
- Abstract要約: MMTL-UniADはマルチモーダルなマルチタスク学習フレームワークである。
ドライバーの行動(例えば、周りを見回したり話したり)、ドライバーの感情(例えば、不安、幸福)、車両の挙動(例えば、駐車、旋回)、交通状況(例えば、交通渋滞、交通のスムーズさ)を同時に認識する。
- 参考スコア(独自算出の注目度): 22.18509264125815
- License:
- Abstract: Advanced driver assistance systems require a comprehensive understanding of the driver's mental/physical state and traffic context but existing works often neglect the potential benefits of joint learning between these tasks. This paper proposes MMTL-UniAD, a unified multi-modal multi-task learning framework that simultaneously recognizes driver behavior (e.g., looking around, talking), driver emotion (e.g., anxiety, happiness), vehicle behavior (e.g., parking, turning), and traffic context (e.g., traffic jam, traffic smooth). A key challenge is avoiding negative transfer between tasks, which can impair learning performance. To address this, we introduce two key components into the framework: one is the multi-axis region attention network to extract global context-sensitive features, and the other is the dual-branch multimodal embedding to learn multimodal embeddings from both task-shared and task-specific features. The former uses a multi-attention mechanism to extract task-relevant features, mitigating negative transfer caused by task-unrelated features. The latter employs a dual-branch structure to adaptively adjust task-shared and task-specific parameters, enhancing cross-task knowledge transfer while reducing task conflicts. We assess MMTL-UniAD on the AIDE dataset, using a series of ablation studies, and show that it outperforms state-of-the-art methods across all four tasks. The code is available on https://github.com/Wenzhuo-Liu/MMTL-UniAD.
- Abstract(参考訳): 高度な運転支援システムは、運転者の精神・身体状態と交通状況の包括的な理解を必要とするが、既存の作業は、これらのタスク間の共同学習の潜在的な利点を無視することが多い。
MMTL-UniADは、ドライバーの行動(例えば、周りを見回したり、話したり)、ドライバーの感情(例えば、不安、幸福)、車両の挙動(例えば、駐車、回転)、交通状況(例えば、交通渋滞、交通のスムーズさ)を同時に認識する統合マルチモーダルマルチタスク学習フレームワークである。
重要な課題は、学習パフォーマンスを損なう可能性のあるタスク間の負の移動を避けることだ。
ひとつはグローバルな文脈に敏感な特徴を抽出するマルチ軸領域アテンションネットワークであり、もうひとつはタスク共有機能とタスク固有機能の両方からマルチモーダル埋め込みを学習するデュアルブランチマルチモーダル埋め込みである。
前者はマルチアテンション機構を用いてタスク関連の特徴を抽出し、タスク非関連の特徴による負の伝達を緩和する。
後者は、タスク共有パラメータとタスク固有パラメータを適応的に調整するデュアルブランチ構造を採用し、タスク競合を低減しつつ、タスク間の知識伝達を強化する。
AIDEデータセット上でMMTL-UniADを評価し、一連のアブレーション研究を用いて、4つのタスクすべてにおいて最先端の手法よりも優れていることを示す。
コードはhttps://github.com/Wenzhuo-Liu/MMTL-UniADで公開されている。
関連論文リスト
- Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - Cross-Task Affinity Learning for Multitask Dense Scene Predictions [5.939164722752263]
マルチタスク学習(MTL)は,複数のタスクを同時に予測する能力で注目されている。
マルチタスクネットワークにおけるタスク改善を強化する軽量フレームワークであるクロスタスク親和性学習(CTAL)モジュールを紹介する。
以上の結果から,CNNとトランスフォーマーの両バックボーンに対して,シングルタスク学習よりもはるかに少ないパラメータを用いて,最先端のMTL性能を実証した。
論文 参考訳(メタデータ) (2024-01-20T05:31:47Z) - MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。
この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。
CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:33:02Z) - $\pi$-Tuning: Transferring Multimodal Foundation Models with Optimal
Multi-task Interpolation [30.551283402200657]
$pi$-Tuningは、視覚、言語、視覚言語タスクのための普遍的なパラメータ効率の伝達学習手法である。
ターゲットの下流タスクを支援するために、同様のタスクから学んだ軽量なタスク固有の専門家のパラメータを集約する。
論文 参考訳(メタデータ) (2023-04-27T17:49:54Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。
我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Medusa: Universal Feature Learning via Attentional Multitasking [65.94499390875046]
マルチタスク学習への最近のアプローチは、デコーダレベルでタスク間の接続をモデル化することに焦点を当てている。
MTLは普遍的特徴学習(Universal Feature Learning, UFL)への一歩であり, 新たなタスクに適用可能な汎用的な特徴を, 再学習することなく学習することができる。
UFLにおけるMedusaの有効性 (+13.18%改善) は, MTL性能を維持しつつ, 従来のアプローチよりも25%効率がよいことを示す。
論文 参考訳(メタデータ) (2022-04-12T10:52:28Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。