論文の概要: PoseViNet: Distracted Driver Action Recognition Framework Using
Multi-View Pose Estimation and Vision Transformer
- arxiv url: http://arxiv.org/abs/2312.14577v1
- Date: Fri, 22 Dec 2023 10:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:30:49.279043
- Title: PoseViNet: Distracted Driver Action Recognition Framework Using
Multi-View Pose Estimation and Vision Transformer
- Title(参考訳): PoseViNet:多視点ポス推定と視覚変換器を用いたドライバ動作認識フレームワーク
- Authors: Neha Sengar, Indra Kumari, Jihui Lee, Dongsoo Har
- Abstract要約: 本稿では,多視点運転者行動画像を用いた運転者の気晴らし検出手法を提案する。
提案手法は,ポーズ推定とアクション推論,すなわち PoseViNet を用いた視覚変換器ベースのフレームワークである。
PoseViNetは、難しいデータセットで97.55%の検証精度と90.92%のテスト精度を達成する。
- 参考スコア(独自算出の注目度): 1.319058156672392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driver distraction is a principal cause of traffic accidents. In a study
conducted by the National Highway Traffic Safety Administration, engaging in
activities such as interacting with in-car menus, consuming food or beverages,
or engaging in telephonic conversations while operating a vehicle can be
significant sources of driver distraction. From this viewpoint, this paper
introduces a novel method for detection of driver distraction using multi-view
driver action images. The proposed method is a vision transformer-based
framework with pose estimation and action inference, namely PoseViNet. The
motivation for adding posture information is to enable the transformer to focus
more on key features. As a result, the framework is more adept at identifying
critical actions. The proposed framework is compared with various
state-of-the-art models using SFD3 dataset representing 10 behaviors of
drivers. It is found from the comparison that the PoseViNet outperforms these
models. The proposed framework is also evaluated with the SynDD1 dataset
representing 16 behaviors of driver. As a result, the PoseViNet achieves 97.55%
validation accuracy and 90.92% testing accuracy with the challenging dataset.
- Abstract(参考訳): 交通事故の主な原因は運転注意障害である。
高速道路交通安全局(NHTSA)が実施した調査では、車内メニューとの対話、食事や飲み物の消費、車両の運転中の電話による会話など、運転者の注意をそらす重要な要因となっている。
そこで本研究では,マルチビュー・ドライバ・アクション画像を用いたドライバの注意散逸検出手法を提案する。
提案手法は,ポーズ推定とアクション推論,すなわち PoseViNet を用いた視覚変換器ベースのフレームワークである。
姿勢情報を追加する動機は、トランスフォーマーが重要な機能に集中できるようにすることである。
その結果、フレームワークは重要なアクションを特定するのにより適しています。
提案するフレームワークは,ドライバの挙動を表すsfd3データセットを用いて,さまざまな最先端モデルと比較する。
比較の結果,PoseViNetはこれらのモデルより優れていることがわかった。
提案フレームワークは,運転者の行動を表すSynDD1データセットを用いて評価する。
その結果、PoseViNetは、難しいデータセットで97.55%の検証精度と90.92%のテスト精度を達成した。
関連論文リスト
- An object detection approach for lane change and overtake detection from motion profiles [3.545178658731506]
本稿では,移動プロファイルに適用した新しい物体検出手法を用いて,オーバーテイクおよびレーン変更動作の同定を行う。
モデルをトレーニングし、テストするために、ヘテロジニアスなダシュカムビデオから得られたモーションプロファイル画像の内部データセットを作成しました。
標準のオブジェクト検出アプローチに加えて、CoordConvolutionレイヤを含めることで、モデルの性能がさらに向上することを示す。
論文 参考訳(メタデータ) (2025-02-06T17:36:35Z) - Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning [13.613407983544427]
車両内のカメラ位置の変化に耐えられるような頑健なモデルを導入する。
我々のドライバ行動監視ネットワーク(DBMNet)は軽量なバックボーンに依存し、アンタングルメントモジュールを統合する。
100-Driverデータセットの夜間および夜間のサブセットで行った実験は、我々のアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2024-11-20T10:27:12Z) - Towards Infusing Auxiliary Knowledge for Distracted Driver Detection [11.816566371802802]
引き離された運転は世界中の道路事故の主要な原因である。
シーン内のエンティティ間の意味的関係とドライバのポーズの構造的構成に関する補助的知識を注入することで,運転者検出(DDD)の新たな手法であるKiD3を提案する。
具体的には、シーングラフを統合した統合フレームワークを構築し、ドライバが映像フレーム内の視覚的手がかりと情報を合成し、ドライバの行動の全体像を作成する。
論文 参考訳(メタデータ) (2024-08-29T15:28:42Z) - DRUformer: Enhancing the driving scene Important object detection with
driving relationship self-understanding [50.81809690183755]
交通事故はしばしば致命傷を負い、2023年まで5000万人以上の死者を出した。
従来の研究は、主に個々の参加者の重要性を評価し、それらを独立した存在として扱うものであった。
本稿では、重要な物体検出タスクを強化するために、運転シーン関連自己理解変換器(DRUformer)を紹介する。
論文 参考訳(メタデータ) (2023-11-11T07:26:47Z) - Markov Switching Model for Driver Behavior Prediction: Use cases on
Smartphones [4.576379639081977]
スマートフォンを用いた低コストデータ収集ソリューションによって検証された運転行動切替モデルを提案する。
提案モデルでは,短時間の運転行動を予測するために,実データを用いて検証を行う。
論文 参考訳(メタデータ) (2021-08-29T09:54:05Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Studying Person-Specific Pointing and Gaze Behavior for Multimodal
Referencing of Outside Objects from a Moving Vehicle [58.720142291102135]
物体選択と参照のための自動車応用において、手指しと目視が広く研究されている。
既存の車外参照手法は静的な状況に重点を置いているが、移動車両の状況は極めて動的であり、安全性に制約がある。
本研究では,外部オブジェクトを参照するタスクにおいて,各モダリティの具体的特徴とそれら間の相互作用について検討する。
論文 参考訳(メタデータ) (2020-09-23T14:56:19Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。