論文の概要: Robust Multiview Multimodal Driver Monitoring System Using Masked
Multi-Head Self-Attention
- arxiv url: http://arxiv.org/abs/2304.06370v1
- Date: Thu, 13 Apr 2023 09:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:03:31.782172
- Title: Robust Multiview Multimodal Driver Monitoring System Using Masked
Multi-Head Self-Attention
- Title(参考訳): マスク型マルチヘッド自己注意を用いたロバストマルチビューマルチモーダルドライバモニタリングシステム
- Authors: Yiming Ma, Victor Sanchez, Soodeh Nikan, Devesh Upadhyay, Bhushan
Atote, Tanaya Guha
- Abstract要約: マルチヘッド自己注意(MHSA)による特徴レベル融合に基づく新しいマルチビューマルチモーダルドライバ監視システムを提案する。
4つの代替核融合戦略(Sum, Convarity, SE, AFF)と比較し、その効果を実証する。
本データベースを用いた実験により, 提案したMHSAベースの核融合法(AUC-ROC:97.0%)は, 全ベースラインおよび従来のアプローチより優れており, 2)パッチマスキングによるMHSAのトレーニングは, モダリティ・ビュー崩壊に対するロバスト性を向上させることができることが示された。
- 参考スコア(独自算出の注目度): 28.18784311981388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver Monitoring Systems (DMSs) are crucial for safe hand-over actions in
Level-2+ self-driving vehicles. State-of-the-art DMSs leverage multiple sensors
mounted at different locations to monitor the driver and the vehicle's interior
scene and employ decision-level fusion to integrate these heterogenous data.
However, this fusion method may not fully utilize the complementarity of
different data sources and may overlook their relative importance. To address
these limitations, we propose a novel multiview multimodal driver monitoring
system based on feature-level fusion through multi-head self-attention (MHSA).
We demonstrate its effectiveness by comparing it against four alternative
fusion strategies (Sum, Conv, SE, and AFF). We also present a novel
GPU-friendly supervised contrastive learning framework SuMoCo to learn better
representations. Furthermore, We fine-grained the test split of the DAD dataset
to enable the multi-class recognition of drivers' activities. Experiments on
this enhanced database demonstrate that 1) the proposed MHSA-based fusion
method (AUC-ROC: 97.0\%) outperforms all baselines and previous approaches, and
2) training MHSA with patch masking can improve its robustness against
modality/view collapses. The code and annotations are publicly available.
- Abstract(参考訳): ドライバー監視システム(DMS)は、レベル2以上の自動運転車の安全なハンドオーバ動作に不可欠である。
最先端のDMSは、異なる場所に装着された複数のセンサーを利用してドライバーと車両の内部シーンを監視し、これらの異種データを統合するために決定レベルの融合を利用する。
しかし、この融合法は、異なるデータソースの相補性を十分に活用するものではなく、それらの相対的重要性を見逃す可能性がある。
これらの制約に対処するために,マルチヘッド自己注意(MHSA)による特徴レベル融合に基づく,新しいマルチビューマルチモーダルドライバ監視システムを提案する。
4つの代替核融合戦略 (Sum, Conv, SE, AFF) と比較し, その有効性を示す。
また、より優れた表現を学習するための新しいGPUフレンドリな教師付きコントラスト学習フレームワークSuMoCoを提案する。
さらに,dadデータセットのテスト分割を詳細化し,ドライバのアクティビティのマルチクラス認識を可能にした。
この強化されたデータベースに関する実験は
1) MHSA をベースとした核融合法(AUC-ROC:97.0\%)は,全てのベースラインと従来のアプローチより優れており,
2)パッチマスクによるmhsa訓練は,モダリティ/ビュー崩壊に対するロバスト性を向上させる。
コードとアノテーションは公開されている。
関連論文リスト
- Multi-modality action recognition based on dual feature shift in vehicle
cabin monitoring [13.621051517649937]
そこで本研究では,DFSという2つの特徴シフトに基づく,効率的かつ効率的な多モードドライバ動作認識手法を提案する。
Drive&Act データセット上で提案した DFS モデルの有効性を検証する実験が実施されている。
論文 参考訳(メタデータ) (2024-01-26T13:07:59Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文 参考訳(メタデータ) (2023-07-26T03:12:05Z) - A Generalized Multi-Modal Fusion Detection Framework [7.951044844083936]
LiDARポイントクラウドは、自動運転において最も一般的なデータソースになっている。
点雲の広さのため、特定のシナリオでは正確で信頼性の高い検出ができない。
マルチモーダル機能を用いたMMFusionと呼ばれる汎用3次元検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T12:38:07Z) - Unsupervised Driving Event Discovery Based on Vehicle CAN-data [62.997667081978825]
本研究は,車両CANデータのクラスタリングとセグメンテーションを同時に行うことで,一般的な運転イベントを教師なしで識別する手法である。
我々は、実際のTesla Model 3車載CANデータと、異なる運転イベントをアノテートした2時間の運転セッションのデータセットを用いて、アプローチを評価した。
論文 参考訳(メタデータ) (2023-01-12T13:10:47Z) - Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity
Recognition [6.0306313759213275]
本稿では,RGBビデオとIMUセンサの機能を効果的に組み合わせたマルチモーダルフレームワークを提案する。
最初の段階では,各入力エンコーダが特徴を効果的に抽出することを学ぶ。
ビデオのみに比べて22%,11%,MMActデータセットでは20%,12%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2022-11-08T15:48:44Z) - Towards Robust On-Ramp Merging via Augmented Multimodal Reinforcement
Learning [9.48157144651867]
本稿では,CAVのマルチモーダル強化学習によるロバスト・オン・ランプ・マージに対する新しいアプローチを提案する。
具体的には、運転安全性、快適運転行動、交通効率を考慮に入れ、マークフ決定プロセス(MDP)としてオンランプマージ問題を定式化する。
信頼性の高い統合操作を実現するため,BSMと監視画像を同時に活用してマルチモーダル観測を行う。
論文 参考訳(メタデータ) (2022-07-21T16:34:57Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。