論文の概要: Applying Spatiotemporal Attention to Identify Distracted and Drowsy
Driving with Vision Transformers
- arxiv url: http://arxiv.org/abs/2207.12148v1
- Date: Fri, 22 Jul 2022 16:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:30:19.396614
- Title: Applying Spatiotemporal Attention to Identify Distracted and Drowsy
Driving with Vision Transformers
- Title(参考訳): 視覚変換器を用いた運動障害の特定のための時空間注意の適用
- Authors: Samay Lakhani
- Abstract要約: 2021年の自動車事故は、2020年に比べて20%増加した。
眠気と気を散らした運転は、全自動車事故の45%の原因である。
本研究は、3D-CNNから最先端の精度を向上するために視覚変換器を用いることを検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A 20% rise in car crashes in 2021 compared to 2020 has been observed as a
result of increased distraction and drowsiness. Drowsy and distracted driving
are the cause of 45% of all car crashes. As a means to decrease drowsy and
distracted driving, detection methods using computer vision can be designed to
be low-cost, accurate, and minimally invasive. This work investigated the use
of the vision transformer to outperform state-of-the-art accuracy from 3D-CNNs.
Two separate transformers were trained for drowsiness and distractedness. The
drowsy video transformer model was trained on the National Tsing-Hua University
Drowsy Driving Dataset (NTHU-DDD) with a Video Swin Transformer model for 10
epochs on two classes -- drowsy and non-drowsy simulated over 10.5 hours. The
distracted video transformer was trained on the Driver Monitoring Dataset (DMD)
with Video Swin Transformer for 50 epochs over 9 distraction-related classes.
The accuracy of the drowsiness model reached 44% and a high loss value on the
test set, indicating overfitting and poor model performance. Overfitting
indicates limited training data and applied model architecture lacked
quantifiable parameters to learn. The distracted model outperformed
state-of-the-art models on DMD reaching 97.5%, indicating that with sufficient
data and a strong architecture, transformers are suitable for unfit driving
detection. Future research should use newer and stronger models such as
TokenLearner to achieve higher accuracy and efficiency, merge existing datasets
to expand to detecting drunk driving and road rage to create a comprehensive
solution to prevent traffic crashes, and deploying a functioning prototype to
revolutionize the automotive safety industry.
- Abstract(参考訳): 2021年における自動車事故の20%の増加は、気晴らしと眠気の増加の結果である。
眠気と気を散らす運転は、全自動車事故の45%の原因である。
眠気と運転注意をそらす手段として、コンピュータビジョンを用いた検出方法は低コストで正確で最小限の侵襲性を持つように設計されている。
本研究では,3d-cnnsの最先端精度を上回るために視覚トランスフォーマを用いた。
2台のトランスフォーマーが眠気と気晴らしのために訓練された。
ドローシービデオトランスモデルは、National Tsing-Hua University Drowsy Driving Dataset (NTHU-DDD) でトレーニングされ、ビデオスウィントランスフォーマーモデルが2つのクラスで10のエポック – ドローシーと非ドローシーは10.5時間以上シミュレーションされた。
注意をそらすビデオトランスフォーマーは、運転者監視データセット (dmd) で訓練され、ビデオスウィントランスは9つの気晴らし関連のクラスで50エポックで訓練された。
眠気モデルの精度は44%に達し, テストセットの損失値が高く, 過フィッティングやモデル性能の低下が確認された。
オーバーフィッティングは限られたトレーニングデータを示し、応用モデルアーキテクチャは学習すべき量的パラメータが不足している。
DMDの最先端モデルの性能は97.5%に達し、十分なデータと強力なアーキテクチャでトランスフォーマーが不適合な運転検出に適していることを示している。
将来の研究は、より正確性と効率性を達成するために、tokenlearnerのような新しい強力なモデルを使用し、既存のデータセットをマージして飲酒運転の検出と道路事故を検知し、交通クラッシュを防ぐ包括的なソリューションを作り、自動車安全産業に革命をもたらす機能するプロトタイプを展開するべきである。
関連論文リスト
- Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning [13.613407983544427]
車両内のカメラ位置の変化に耐えられるような頑健なモデルを導入する。
我々のドライバ行動監視ネットワーク(DBMNet)は軽量なバックボーンに依存し、アンタングルメントモジュールを統合する。
100-Driverデータセットの夜間および夜間のサブセットで行った実験は、我々のアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2024-11-20T10:27:12Z) - Knowledge Distillation Neural Network for Predicting Car-following Behaviour of Human-driven and Autonomous Vehicles [2.099922236065961]
本研究では,混合交通におけるHDV-AV,AV-HDV,HDV-HDVの自動車追従挙動について検討した。
本稿では,車追従動作を速度的に予測するための,データ駆動型知識蒸留ニューラルネットワーク(KDNN)モデルを提案する。
論文 参考訳(メタデータ) (2024-11-08T14:57:59Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - DRUformer: Enhancing the driving scene Important object detection with
driving relationship self-understanding [50.81809690183755]
交通事故はしばしば致命傷を負い、2023年まで5000万人以上の死者を出した。
従来の研究は、主に個々の参加者の重要性を評価し、それらを独立した存在として扱うものであった。
本稿では、重要な物体検出タスクを強化するために、運転シーン関連自己理解変換器(DRUformer)を紹介する。
論文 参考訳(メタデータ) (2023-11-11T07:26:47Z) - Learning Self-Regularized Adversarial Views for Self-Supervised Vision
Transformers [105.89564687747134]
本稿では,自己監督型視覚変換器のビューを学習するための自己正規化自動拡張手法を提案する。
まず、ビューとネットワークパラメータを同時に学習することで、AutoViewの検索コストをほぼゼロに削減する。
また、自己教師型学習のための強化政策探索空間も提示する。
論文 参考訳(メタデータ) (2022-10-16T06:20:44Z) - Vision Transformers and YoloV5 based Driver Drowsiness Detection
Framework [0.0]
本稿では,視覚変換器とヨーロV5アーキテクチャをベースとした,ドライバの眠気認識のための新しいフレームワークを提案する。
関心領域抽出を目的とした顔抽出のためのヨロV5事前学習アーキテクチャを提案する。
さらなる評価のために、提案されたフレームワークは、様々な光環境における39人の参加者のカスタムデータセットでテストされ、95.5%の精度を達成した。
論文 参考訳(メタデータ) (2022-09-03T11:37:41Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - In-the-wild Drowsiness Detection from Facial Expressions [6.569756709977793]
眠気状態の運転は道路事故の大きな原因であり、生命と財産に大きな損害を与える。
運転中に顔を記録するカメラキットを用いて、夜間シフト作業者の車両を配置するデータ収集プロトコルを提案する。
我々は、ドライバーの顔の入力ビデオのポーズ、表情、感情に基づく表現から、さまざまな畳み込みと時間的ニューラルネットワークアーキテクチャを用いて、眠気状態を予測する実験を行った。
論文 参考訳(メタデータ) (2020-10-21T17:28:56Z) - Towards Evaluating Driver Fatigue with Robust Deep Learning Models [0.0]
ドローシー運転の結果、米国では毎年約7万2000件の事故と4万4000件のケガが発生している。
撮影カメラフレームの眼球閉鎖性を検出するための枠組みを,眠気検出のためのゲートウェイとして提案する。
論文 参考訳(メタデータ) (2020-07-16T16:44:49Z) - Learning Accurate and Human-Like Driving using Semantic Maps and
Attention [152.48143666881418]
本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。
HERE Technologiesのセマンティックマップとビジュアルマップを活用し、既存のDrive360データセットを拡張します。
私たちのモデルは、実世界の運転データ60時間3000kmのDrive360+HEREデータセットでトレーニングされ、評価されています。
論文 参考訳(メタデータ) (2020-07-10T22:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。