論文の概要: Visual Dominance and Emerging Multimodal Approaches in Distracted Driving Detection: A Review of Machine Learning Techniques
- arxiv url: http://arxiv.org/abs/2505.01973v1
- Date: Sun, 04 May 2025 02:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.359468
- Title: Visual Dominance and Emerging Multimodal Approaches in Distracted Driving Detection: A Review of Machine Learning Techniques
- Title(参考訳): 減算駆動検出における視覚優位性と創発的マルチモーダルアプローチ:機械学習手法の概観
- Authors: Anthony Dontoh, Stephanie Ivey, Logan Sirbaugh, Andrews Danyo, Armstrong Aboah,
- Abstract要約: 引き離された運転は、世界中の道路交通事故と死者の大きな原因であり続けている。
機械学習(ML)とディープラーニング(DL)の最近の進歩は、主に注意散逸を検出する視覚データに焦点を当てている。
本稿では,ML/DL技術を用いた視覚的,センサベース,マルチモーダル,新興モダリティを横断する運転検出のための74つの研究を体系的に評価する。
- 参考スコア(独自算出の注目度): 3.378738346115004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distracted driving continues to be a significant cause of road traffic injuries and fatalities worldwide, even with advancements in driver monitoring technologies. Recent developments in machine learning (ML) and deep learning (DL) have primarily focused on visual data to detect distraction, often neglecting the complex, multimodal nature of driver behavior. This systematic review assesses 74 peer-reviewed studies from 2019 to 2024 that utilize ML/DL techniques for distracted driving detection across visual, sensor-based, multimodal, and emerging modalities. The review highlights a significant prevalence of visual-only models, particularly convolutional neural networks (CNNs) and temporal architectures, which achieve high accuracy but show limited generalizability in real-world scenarios. Sensor-based and physiological models provide complementary strengths by capturing internal states and vehicle dynamics, while emerging techniques, such as auditory sensing and radio frequency (RF) methods, offer privacy-aware alternatives. Multimodal architecture consistently surpasses unimodal baselines, demonstrating enhanced robustness, context awareness, and scalability by integrating diverse data streams. These findings emphasize the need to move beyond visual-only approaches and adopt multimodal systems that combine visual, physiological, and vehicular cues while keeping in checking the need to balance computational requirements. Future research should focus on developing lightweight, deployable multimodal frameworks, incorporating personalized baselines, and establishing cross-modality benchmarks to ensure real-world reliability in advanced driver assistance systems (ADAS) and road safety interventions.
- Abstract(参考訳): 引き離された運転は、ドライバー監視技術の進歩にもかかわらず、世界中の道路交通事故や死亡の重大な原因であり続けている。
機械学習(ML)とディープラーニング(DL)の最近の進歩は、運転者の振る舞いの複雑でマルチモーダルな性質を無視して、注意をそらすために視覚データに重点を置いている。
この体系的なレビューでは、視覚、センサーベース、マルチモーダル、新興モダリティをまたいだ運転検出にML/DL技術を用いた、2019年から2024年までの74のピアレビュー研究を評価している。
このレビューは、視覚のみのモデル、特に畳み込みニューラルネットワーク(CNN)と時間的アーキテクチャの顕著な普及を強調しており、精度は高いが、現実のシナリオでは限定的な一般化性を示している。
センサベースおよび生理学的モデルは、内部状態と車両力学を捉えることによって補完的な強みを提供する一方、聴覚センシングやRF(Radio frequency)手法のような新しい技術は、プライバシーに配慮した代替手段を提供する。
マルチモーダルアーキテクチャは、多種多様なデータストリームを統合することで、拡張された堅牢性、コンテキスト認識、スケーラビリティを向上する。
これらの知見は、視覚のみのアプローチを超えて、計算要求のバランスを保ちながら、視覚的、生理的、車体的な手がかりを組み合わせたマルチモーダルシステムを採用する必要性を強調している。
今後の研究は、軽量でデプロイ可能なマルチモーダルフレームワークの開発、パーソナライズされたベースラインの導入、高度運転支援システム(ADAS)と道路安全介入における現実的な信頼性を確保するためのクロスモーダルベンチマークの確立に注力する。
関連論文リスト
- A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文 参考訳(メタデータ) (2023-07-26T03:12:05Z) - A Novel Driver Distraction Behavior Detection Method Based on
Self-supervised Learning with Masked Image Modeling [5.1680226874942985]
ドライバーの注意散らしは、毎年かなりの数の交通事故を引き起こし、経済的な損失と損失をもたらす。
ドライバの障害検出は、主に従来の畳み込みニューラルネットワーク(CNN)と教師あり学習法に依存している。
本稿では,運転者の気晴らし行動検出のためのマスク付き画像モデリングに基づく自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T10:53:32Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。