論文の概要: DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis
- arxiv url: http://arxiv.org/abs/2008.12085v1
- Date: Thu, 27 Aug 2020 12:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:34:22.134655
- Title: DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis
- Title(参考訳): dmd:注意と警告分析のためのデータセットを監視する大規模マルチモーダルドライバ
- Authors: Juan Diego Ortega, Neslihan Kose, Paola Ca\~nas, Min-An Chao,
Alexander Unnervik, Marcos Nieto, Oihana Otaegui, Luis Salgado
- Abstract要約: 視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
- 参考スコア(独自算出の注目度): 54.198237164152786
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision is the richest and most cost-effective technology for Driver
Monitoring Systems (DMS), especially after the recent success of Deep Learning
(DL) methods. The lack of sufficiently large and comprehensive datasets is
currently a bottleneck for the progress of DMS development, crucial for the
transition of automated driving from SAE Level-2 to SAE Level-3. In this paper,
we introduce the Driver Monitoring Dataset (DMD), an extensive dataset which
includes real and simulated driving scenarios: distraction, gaze allocation,
drowsiness, hands-wheel interaction and context data, in 41 hours of RGB, depth
and IR videos from 3 cameras capturing face, body and hands of 37 drivers. A
comparison with existing similar datasets is included, which shows the DMD is
more extensive, diverse, and multi-purpose. The usage of the DMD is illustrated
by extracting a subset of it, the dBehaviourMD dataset, containing 13
distraction activities, prepared to be used in DL training processes.
Furthermore, we propose a robust and real-time driver behaviour recognition
system targeting a real-world application that can run on cost-efficient
CPU-only platforms, based on the dBehaviourMD. Its performance is evaluated
with different types of fusion strategies, which all reach enhanced accuracy
still providing real-time response.
- Abstract(参考訳): ビジョンは運転監視システム(DMS)にとって最も豊かで費用効率のよい技術であり、特に近年のディープラーニング(DL)手法の成功の後である。
十分に大規模で包括的なデータセットの欠如は、現在DMS開発の進展のボトルネックであり、自動走行のSAEレベル2からSAEレベル3への移行に不可欠である。
本稿では,ドライバモニタリングデータセット(DMD)について紹介する。このデータセットは,顔,体,37人のドライバの顔,体,手を取り出す3台のカメラから,41時間分のRGB,深度,赤外線映像などの,リアルかつシミュレートされた運転シナリオを含む。
既存の類似データセットと比較すると、MDDはより広く、多様で、多目的であることが分かる。
dbehaviourmdデータセット(dbehaviourmd dataset)は、dlトレーニングプロセスで使用されるように準備された13の注意をそらすアクティビティを含んでいる。
さらに,dBehaviourMDに基づいて,コスト効率の高いCPU専用プラットフォーム上で動作可能な実世界のアプリケーションを対象とした,堅牢でリアルタイムなドライバ動作認識システムを提案する。
その性能は異なる種類の核融合戦略で評価され、これは全てリアルタイム応答を提供する精度を高める。
関連論文リスト
- Efficient Mixture-of-Expert for Video-based Driver State and Physiological Multi-task Estimation in Conditional Autonomous Driving [12.765198683804094]
道路の安全は世界中で重要な課題であり、交通事故による死者は約135万人である。
VDMoEと呼ばれる新しいマルチタスクDMSを提案し、RGBビデオ入力を利用して運転状態を非侵襲的に監視する。
論文 参考訳(メタデータ) (2024-10-28T14:49:18Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。