論文の概要: Robust Multiview Multimodal Driver Monitoring System Using Masked
Multi-Head Self-Attention
- arxiv url: http://arxiv.org/abs/2304.06370v1
- Date: Thu, 13 Apr 2023 09:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:03:31.782172
- Title: Robust Multiview Multimodal Driver Monitoring System Using Masked
Multi-Head Self-Attention
- Title(参考訳): マスク型マルチヘッド自己注意を用いたロバストマルチビューマルチモーダルドライバモニタリングシステム
- Authors: Yiming Ma, Victor Sanchez, Soodeh Nikan, Devesh Upadhyay, Bhushan
Atote, Tanaya Guha
- Abstract要約: マルチヘッド自己注意(MHSA)による特徴レベル融合に基づく新しいマルチビューマルチモーダルドライバ監視システムを提案する。
4つの代替核融合戦略(Sum, Convarity, SE, AFF)と比較し、その効果を実証する。
本データベースを用いた実験により, 提案したMHSAベースの核融合法(AUC-ROC:97.0%)は, 全ベースラインおよび従来のアプローチより優れており, 2)パッチマスキングによるMHSAのトレーニングは, モダリティ・ビュー崩壊に対するロバスト性を向上させることができることが示された。
- 参考スコア(独自算出の注目度): 28.18784311981388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver Monitoring Systems (DMSs) are crucial for safe hand-over actions in
Level-2+ self-driving vehicles. State-of-the-art DMSs leverage multiple sensors
mounted at different locations to monitor the driver and the vehicle's interior
scene and employ decision-level fusion to integrate these heterogenous data.
However, this fusion method may not fully utilize the complementarity of
different data sources and may overlook their relative importance. To address
these limitations, we propose a novel multiview multimodal driver monitoring
system based on feature-level fusion through multi-head self-attention (MHSA).
We demonstrate its effectiveness by comparing it against four alternative
fusion strategies (Sum, Conv, SE, and AFF). We also present a novel
GPU-friendly supervised contrastive learning framework SuMoCo to learn better
representations. Furthermore, We fine-grained the test split of the DAD dataset
to enable the multi-class recognition of drivers' activities. Experiments on
this enhanced database demonstrate that 1) the proposed MHSA-based fusion
method (AUC-ROC: 97.0\%) outperforms all baselines and previous approaches, and
2) training MHSA with patch masking can improve its robustness against
modality/view collapses. The code and annotations are publicly available.
- Abstract(参考訳): ドライバー監視システム(DMS)は、レベル2以上の自動運転車の安全なハンドオーバ動作に不可欠である。
最先端のDMSは、異なる場所に装着された複数のセンサーを利用してドライバーと車両の内部シーンを監視し、これらの異種データを統合するために決定レベルの融合を利用する。
しかし、この融合法は、異なるデータソースの相補性を十分に活用するものではなく、それらの相対的重要性を見逃す可能性がある。
これらの制約に対処するために,マルチヘッド自己注意(MHSA)による特徴レベル融合に基づく,新しいマルチビューマルチモーダルドライバ監視システムを提案する。
4つの代替核融合戦略 (Sum, Conv, SE, AFF) と比較し, その有効性を示す。
また、より優れた表現を学習するための新しいGPUフレンドリな教師付きコントラスト学習フレームワークSuMoCoを提案する。
さらに,dadデータセットのテスト分割を詳細化し,ドライバのアクティビティのマルチクラス認識を可能にした。
この強化されたデータベースに関する実験は
1) MHSA をベースとした核融合法(AUC-ROC:97.0\%)は,全てのベースラインと従来のアプローチより優れており,
2)パッチマスクによるmhsa訓練は,モダリティ/ビュー崩壊に対するロバスト性を向上させる。
コードとアノテーションは公開されている。
関連論文リスト
- Graph-Based Multi-Modal Sensor Fusion for Autonomous Driving [3.770103075126785]
本稿では,グラフに基づく状態表現の開発に焦点をあてた,マルチモーダルセンサ融合に対する新しいアプローチを提案する。
本稿では,マルチモーダルグラフを融合する最初のオンライン状態推定手法であるSensor-Agnostic Graph-Aware Kalman Filterを提案する。
提案手法の有効性を,合成および実世界の運転データセットを用いた広範囲な実験により検証した。
論文 参考訳(メタデータ) (2024-11-06T06:58:17Z) - Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition [10.060717595852271]
我々はMultiFuserという新しいマルチモーダル核融合トランスを提案する。
マルチモーダルカーキャビンビデオ間の相互関係と相互作用を識別する。
Drive&Actデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2024-08-03T12:33:21Z) - M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving [11.36165122994834]
自律運転にドライバ注意(M2DA)を組み込んだ多モード核融合トランスを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、重要な領域を正確に特定し、安全性を確保する。
論文 参考訳(メタデータ) (2024-03-19T08:54:52Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文 参考訳(メタデータ) (2023-07-26T03:12:05Z) - Towards Robust On-Ramp Merging via Augmented Multimodal Reinforcement
Learning [9.48157144651867]
本稿では,CAVのマルチモーダル強化学習によるロバスト・オン・ランプ・マージに対する新しいアプローチを提案する。
具体的には、運転安全性、快適運転行動、交通効率を考慮に入れ、マークフ決定プロセス(MDP)としてオンランプマージ問題を定式化する。
信頼性の高い統合操作を実現するため,BSMと監視画像を同時に活用してマルチモーダル観測を行う。
論文 参考訳(メタデータ) (2022-07-21T16:34:57Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。