論文の概要: MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition
- arxiv url: http://arxiv.org/abs/2408.01766v2
- Date: Sat, 17 Aug 2024 09:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 01:39:16.043736
- Title: MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition
- Title(参考訳): MultiFuser: ドライバ動作認識のためのマルチモーダルフュージョン変換器
- Authors: Ruoyu Wang, Wenqian Wang, Jianjun Gao, Dan Lin, Kim-Hui Yap, Bingbing Li,
- Abstract要約: 我々はMultiFuserという新しいマルチモーダル核融合トランスを提案する。
マルチモーダルカーキャビンビデオ間の相互関係と相互作用を識別する。
Drive&Actデータセットで大規模な実験を行う。
- 参考スコア(独自算出の注目度): 10.060717595852271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driver action recognition, aiming to accurately identify drivers' behaviours, is crucial for enhancing driver-vehicle interactions and ensuring driving safety. Unlike general action recognition, drivers' environments are often challenging, being gloomy and dark, and with the development of sensors, various cameras such as IR and depth cameras have emerged for analyzing drivers' behaviors. Therefore, in this paper, we propose a novel multimodal fusion transformer, named MultiFuser, which identifies cross-modal interrelations and interactions among multimodal car cabin videos and adaptively integrates different modalities for improved representations. Specifically, MultiFuser comprises layers of Bi-decomposed Modules to model spatiotemporal features, with a modality synthesizer for multimodal features integration. Each Bi-decomposed Module includes a Modal Expertise ViT block for extracting modality-specific features and a Patch-wise Adaptive Fusion block for efficient cross-modal fusion. Extensive experiments are conducted on Drive&Act dataset and the results demonstrate the efficacy of our proposed approach.
- Abstract(参考訳): ドライバーの動作を正確に識別することを目的としたドライバー行動認識は、ドライバーとドライバーの相互作用を強化し、運転安全性を確保するために不可欠である。
一般的な行動認識とは異なり、ドライバーの環境は暗く、センサーの開発に伴い、ドライバーの行動を分析するために赤外線やディープカメラなどの様々なカメラが出現している。
そこで本稿では,マルチモーダルカーキャビンビデオ間の相互相互関係と相互作用を識別し,表現改善のために異なるモーダルを適応的に統合するマルチモーダルフュージョントランス (MultiFuser) を提案する。
特に、MultiFuserは、時空間特徴をモデル化するためのBi分解モジュールの層と、マルチモーダル特徴統合のためのモダリティシンセサイザーから構成される。
各Bi分解モジュールは、モダリティ固有の特徴を抽出するModal Expertise ViTブロックと、効率的なクロスモーダル融合のためのPatch-wise Adaptive Fusionブロックを含む。
Drive&Actデータセットを用いて大規模な実験を行い,提案手法の有効性を実証した。
関連論文リスト
- DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving [11.36165122994834]
自律運転にドライバ注意(M2DA)を組み込んだ多モード核融合トランスを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、重要な領域を正確に特定し、安全性を確保する。
論文 参考訳(メタデータ) (2024-03-19T08:54:52Z) - Multi-modality action recognition based on dual feature shift in vehicle
cabin monitoring [13.621051517649937]
そこで本研究では,DFSという2つの特徴シフトに基づく,効率的かつ効率的な多モードドライバ動作認識手法を提案する。
Drive&Act データセット上で提案した DFS モデルの有効性を検証する実験が実施されている。
論文 参考訳(メタデータ) (2024-01-26T13:07:59Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D
Representation for 3D Perception in Autonomous Driving [51.37470133438836]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するために、UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Robust Multiview Multimodal Driver Monitoring System Using Masked
Multi-Head Self-Attention [28.18784311981388]
マルチヘッド自己注意(MHSA)による特徴レベル融合に基づく新しいマルチビューマルチモーダルドライバ監視システムを提案する。
4つの代替核融合戦略(Sum, Convarity, SE, AFF)と比較し、その効果を実証する。
本データベースを用いた実験により, 提案したMHSAベースの核融合法(AUC-ROC:97.0%)は, 全ベースラインおよび従来のアプローチより優れており, 2)パッチマスキングによるMHSAのトレーニングは, モダリティ・ビュー崩壊に対するロバスト性を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-13T09:50:32Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Low Rank Fusion based Transformers for Multimodal Sequences [9.507869508188266]
CMU-MOSEI, CMU-MOSI, IEMOCAPデータセットを用いたマルチモーダル知覚と感情認識の2つの手法を提案する。
我々のモデルはより少ないパラメータを持ち、より速く訓練し、多くの大規模な核融合ベースのアーキテクチャと相容れない性能を発揮する。
論文 参考訳(メタデータ) (2020-07-04T08:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。