論文の概要: A Contextual Analysis of Driver-Facing and Dual-View Video Inputs for Distraction Detection in Naturalistic Driving Environments
- arxiv url: http://arxiv.org/abs/2512.20025v1
- Date: Tue, 23 Dec 2025 03:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.734125
- Title: A Contextual Analysis of Driver-Facing and Dual-View Video Inputs for Distraction Detection in Naturalistic Driving Environments
- Title(参考訳): 自然発生運転環境におけるディトラクション検出のためのドライバ・ファクタとデュアルビュー映像入力の文脈解析
- Authors: Anthony Dontoh, Stephanie Ivey, Armstrong Aboah,
- Abstract要約: 本研究は,運転者の視界と運転者の視界を併用することにより,運転条件の逸脱検出精度が向上するかどうかを考察する。
その結果、コンテキスト入力は特定のモデルにおける検出を改善するが、性能向上は基盤となるアーキテクチャに強く依存していることがわかった。
本研究では,自然主義駆動データを用いた単視点・二視点検出モデルの最初の体系的比較を行った。
- 参考スコア(独自算出の注目度): 5.741407725419445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite increasing interest in computer vision-based distracted driving detection, most existing models rely exclusively on driver-facing views and overlook crucial environmental context that influences driving behavior. This study investigates whether incorporating road-facing views alongside driver-facing footage improves distraction detection accuracy in naturalistic driving conditions. Using synchronized dual-camera recordings from real-world driving, we benchmark three leading spatiotemporal action recognition architectures: SlowFast-R50, X3D-M, and SlowOnly-R50. Each model is evaluated under two input configurations: driver-only and stacked dual-view. Results show that while contextual inputs can improve detection in certain models, performance gains depend strongly on the underlying architecture. The single-pathway SlowOnly model achieved a 9.8 percent improvement with dual-view inputs, while the dual-pathway SlowFast model experienced a 7.2 percent drop in accuracy due to representational conflicts. These findings suggest that simply adding visual context is not sufficient and may lead to interference unless the architecture is specifically designed to support multi-view integration. This study presents one of the first systematic comparisons of single- and dual-view distraction detection models using naturalistic driving data and underscores the importance of fusion-aware design for future multimodal driver monitoring systems.
- Abstract(参考訳): コンピュータビジョンに基づく注意散在運転検出への関心が高まっているにもかかわらず、既存のモデルの多くは運転者の視界に依存し、運転行動に影響を与える重要な環境状況を見落としている。
本研究は,道路面の視界と運転者の視界とを併用することで,自然条件下での注意方向検出精度が向上するかどうかを考察する。
SlowFast-R50, X3D-M, SlowOnly-R50。
各モデルはドライバのみとスタックされたデュアルビューの2つの入力構成で評価される。
その結果、コンテキスト入力は特定のモデルにおける検出を改善するが、性能向上は基盤となるアーキテクチャに強く依存していることがわかった。
シングルパスSlowOnlyモデルはデュアルビュー入力で9.8%改善し、デュアルパスSlowFastモデルは表現上の矛盾により精度が7.2%低下した。
これらの結果は、視覚的コンテキストを追加するだけでは不十分であり、アーキテクチャが特にマルチビュー統合をサポートするように設計されていない限り、干渉を招く可能性があることを示唆している。
本研究は、自然主義駆動データを用いた単視点・二視点間距離検出モデルの最初の体系的比較の1つであり、将来のマルチモーダル運転監視システムにおける融合認識設計の重要性を浮き彫りにしている。
関連論文リスト
- Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - Spatial-Temporal Perception with Causal Inference for Naturalistic Driving Action Recognition [6.115044825582411]
自動車キャビン監視システムには, 自然な運転行動認識が不可欠である。
これまでのアプローチでは、微妙な振る舞いの違いを観察する能力が限られていたため、実践的な実装に苦労してきた。
本稿では,時間的情報と空間的関係を両立する空間的知覚アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-06T04:28:11Z) - MIFI: MultI-camera Feature Integration for Roust 3D Distracted Driver
Activity Recognition [16.40477776426277]
本稿では,3次元不注意運転者行動認識のためのMultI-camera Feature Integration (MIFI)アプローチを提案する。
本稿では, シンプルだが効果的なマルチカメラ機能統合フレームワークを提案し, 3種類の機能融合技術を提供する。
3MDADデータセットによる実験結果から,提案したMIFIはシングルビューモデルと比較して連続的に性能を向上できることが示された。
論文 参考訳(メタデータ) (2024-01-25T11:50:43Z) - Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos [22.16190711818432]
本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTHFを紹介し,交通異常検出の新しい視点を提供する。
従来の手法とは異なり、我々の手法の教師付き信号は1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。
提案したTTHFは,DoTAデータセット上で,+5.4%のAUCで,最先端の競合よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-07T15:47:19Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Real-Time Driver Monitoring Systems through Modality and View Analysis [28.18784311981388]
ドライバーの気晴らしが道路事故の主要な原因であることが知られている。
State-of-the-artメソッドはレイテンシを無視しながら精度を優先する。
本稿では,ビデオフレーム間の時間的関係を無視した時間効率な検出モデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T21:22:41Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。