Fugu-MT 論文翻訳(概要): Visual Dominance and Emerging Multimodal Approaches in Distracted Driving Detection: A Review of Machine Learning Techniques

論文の概要: Visual Dominance and Emerging Multimodal Approaches in Distracted Driving Detection: A Review of Machine Learning Techniques

arxiv url: http://arxiv.org/abs/2505.01973v1
Date: Sun, 04 May 2025 02:51:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.359468
Title: Visual Dominance and Emerging Multimodal Approaches in Distracted Driving Detection: A Review of Machine Learning Techniques
Title（参考訳）: 減算駆動検出における視覚優位性と創発的マルチモーダルアプローチ:機械学習手法の概観
Authors: Anthony Dontoh, Stephanie Ivey, Logan Sirbaugh, Andrews Danyo, Armstrong Aboah,
Abstract要約: 引き離された運転は、世界中の道路交通事故と死者の大きな原因であり続けている。機械学習(ML)とディープラーニング(DL)の最近の進歩は、主に注意散逸を検出する視覚データに焦点を当てている。本稿では,ML/DL技術を用いた視覚的,センサベース,マルチモーダル,新興モダリティを横断する運転検出のための74つの研究を体系的に評価する。
参考スコア（独自算出の注目度）: 3.378738346115004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Distracted driving continues to be a significant cause of road traffic injuries and fatalities worldwide, even with advancements in driver monitoring technologies. Recent developments in machine learning (ML) and deep learning (DL) have primarily focused on visual data to detect distraction, often neglecting the complex, multimodal nature of driver behavior. This systematic review assesses 74 peer-reviewed studies from 2019 to 2024 that utilize ML/DL techniques for distracted driving detection across visual, sensor-based, multimodal, and emerging modalities. The review highlights a significant prevalence of visual-only models, particularly convolutional neural networks (CNNs) and temporal architectures, which achieve high accuracy but show limited generalizability in real-world scenarios. Sensor-based and physiological models provide complementary strengths by capturing internal states and vehicle dynamics, while emerging techniques, such as auditory sensing and radio frequency (RF) methods, offer privacy-aware alternatives. Multimodal architecture consistently surpasses unimodal baselines, demonstrating enhanced robustness, context awareness, and scalability by integrating diverse data streams. These findings emphasize the need to move beyond visual-only approaches and adopt multimodal systems that combine visual, physiological, and vehicular cues while keeping in checking the need to balance computational requirements. Future research should focus on developing lightweight, deployable multimodal frameworks, incorporating personalized baselines, and establishing cross-modality benchmarks to ensure real-world reliability in advanced driver assistance systems (ADAS) and road safety interventions.
Abstract（参考訳）: 引き離された運転は、ドライバー監視技術の進歩にもかかわらず、世界中の道路交通事故や死亡の重大な原因であり続けている。機械学習(ML)とディープラーニング(DL)の最近の進歩は、運転者の振る舞いの複雑でマルチモーダルな性質を無視して、注意をそらすために視覚データに重点を置いている。この体系的なレビューでは、視覚、センサーベース、マルチモーダル、新興モダリティをまたいだ運転検出にML/DL技術を用いた、2019年から2024年までの74のピアレビュー研究を評価している。このレビューは、視覚のみのモデル、特に畳み込みニューラルネットワーク(CNN)と時間的アーキテクチャの顕著な普及を強調しており、精度は高いが、現実のシナリオでは限定的な一般化性を示している。センサベースおよび生理学的モデルは、内部状態と車両力学を捉えることによって補完的な強みを提供する一方、聴覚センシングやRF(Radio frequency)手法のような新しい技術は、プライバシーに配慮した代替手段を提供する。マルチモーダルアーキテクチャは、多種多様なデータストリームを統合することで、拡張された堅牢性、コンテキスト認識、スケーラビリティを向上する。これらの知見は、視覚のみのアプローチを超えて、計算要求のバランスを保ちながら、視覚的、生理的、車体的な手がかりを組み合わせたマルチモーダルシステムを採用する必要性を強調している。今後の研究は、軽量でデプロイ可能なマルチモーダルフレームワークの開発、パーソナライズされたベースラインの導入、高度運転支援システム(ADAS)と道路安全介入における現実的な信頼性を確保するためのクロスモーダルベンチマークの確立に注力する。

関連論文リスト

Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision [2.0720154517628417]
オープン語彙検出とクロスモーダル学習を組み合わせた新しいフレームワークを提案する。交通信号検出のために,NanoVerse YOLOモデルは視覚言語パス集約ネットワーク(RepVL-PAN)とSPD-Convモジュールを統合している。交通標識分類のための交通信号認識マルチモーダルコントラスト学習モデル(TSR-MCL)を設計した。 TT100Kデータセットでは,全クラス認識のためのロングテール検出タスクにおいて,最先端の78.4%mAPを実現する。
論文参考訳（メタデータ） (2025-07-31T08:23:30Z)
Lane-Wise Highway Anomaly Detection [8.086502588472783]
本稿では,車線道路交通異常検出のためのスケーラブルかつ解釈可能なフレームワークを提案する。従来のセンサ依存の手法とは異なり、我々の手法はAIを利用した視覚モデルを用いて車線固有の特徴を抽出する。我々のフレームワークは、精度、リコール、F1スコアにおいて最先端の手法より優れています。
論文参考訳（メタデータ） (2025-05-05T12:32:23Z)
Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。 i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文参考訳（メタデータ） (2025-03-06T07:36:06Z)
A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文参考訳（メタデータ） (2025-01-20T04:00:02Z)
CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文参考訳（メタデータ） (2024-07-25T04:12:49Z)
Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。 GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文参考訳（メタデータ） (2024-05-09T17:52:42Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文参考訳（メタデータ） (2023-12-13T23:06:30Z)
AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。 AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。 2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文参考訳（メタデータ） (2023-07-26T03:12:05Z)
A Novel Driver Distraction Behavior Detection Method Based on Self-supervised Learning with Masked Image Modeling [5.1680226874942985]
ドライバーの注意散らしは、毎年かなりの数の交通事故を引き起こし、経済的な損失と損失をもたらす。ドライバの障害検出は、主に従来の畳み込みニューラルネットワーク(CNN)と教師あり学習法に依存している。本稿では,運転者の気晴らし行動検出のためのマスク付き画像モデリングに基づく自己教師付き学習手法を提案する。
論文参考訳（メタデータ） (2023-06-01T10:53:32Z)
Federated Deep Learning Meets Autonomous Vehicle Perception: Design and Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。 FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文参考訳（メタデータ） (2022-06-03T23:55:45Z)
Artificial Intelligence Enabled Traffic Monitoring System [3.085453921856008]
本稿では,深層畳み込みニューラルネットワークを用いたリアルタイム交通映像の自動監視手法を提案する。提案システムは、さまざまなトラフィック監視ニーズを自動化するために、最先端のディープラーニングアルゴリズムをデプロイする。
論文参考訳（メタデータ） (2020-10-02T22:28:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。