論文の概要: Vision-Language Models can Identify Distracted Driver Behavior from
Naturalistic Videos
- arxiv url: http://arxiv.org/abs/2306.10159v1
- Date: Fri, 16 Jun 2023 20:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:06:43.858262
- Title: Vision-Language Models can Identify Distracted Driver Behavior from
Naturalistic Videos
- Title(参考訳): 視覚言語モデルは自然映像からドライバーの注意をそらす行動を識別する
- Authors: Md Zahid Hasan, Jiajing Chen, Jiyang Wang, Ameya Joshi, Senem
Velipasalar, Chinmay Hegde, Anuj Sharma, Soumik Sarkar
- Abstract要約: 本稿では,CLIPに基づく運転行動認識手法を提案する。
以上の結果から、このフレームワークは、ゼロショット転送における最先端のパフォーマンスと、2つの公開データセット上でドライバの状態を予測するためのビデオベースCLIPを提供する。
- 参考スコア(独自算出の注目度): 32.560468116128895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing the activities, causing distraction, in real-world driving
scenarios is critical for ensuring the safety and reliability of both drivers
and pedestrians on the roadways. Conventional computer vision techniques are
typically data-intensive and require a large volume of annotated training data
to detect and classify various distracted driving behaviors, thereby limiting
their efficiency and scalability. We aim to develop a generalized framework
that showcases robust performance with access to limited or no annotated
training data. Recently, vision-language models have offered large-scale
visual-textual pretraining that can be adapted to task-specific learning like
distracted driving activity recognition. Vision-language pretraining models,
such as CLIP, have shown significant promise in learning natural
language-guided visual representations. This paper proposes a CLIP-based driver
activity recognition approach that identifies driver distraction from
naturalistic driving images and videos. CLIP's vision embedding offers
zero-shot transfer and task-based finetuning, which can classify distracted
activities from driving video data. Our results show that this framework offers
state-of-the-art performance on zero-shot transfer and video-based CLIP for
predicting the driver's state on two public datasets. We propose both
frame-based and video-based frameworks developed on top of the CLIP's visual
representation for distracted driving detection and classification task and
report the results.
- Abstract(参考訳): 現実の運転シナリオにおける行動を認識し、注意をそらすことは、道路上のドライバーと歩行者の両方の安全と信頼性を確保するために重要である。
従来のコンピュータビジョン技術は通常、データ集約的であり、様々な注意をそらす運転行動を検出し分類するために大量の注釈付きトレーニングデータを必要とするため、その効率とスケーラビリティは制限される。
我々は,限定的あるいは無注釈のトレーニングデータにアクセスして,堅牢なパフォーマンスを示す汎用フレームワークの開発を目指している。
近年,視覚言語モデルでは,運転行動認識などのタスク固有の学習に適応可能な大規模視覚テキスト事前学習が提供されている。
CLIPのような視覚言語事前学習モデルは、自然言語による視覚表現の学習において大きな可能性を示している。
本稿では,自然主義的な運転映像と映像からドライバの注意をそらすクリップベースの運転行動認識手法を提案する。
CLIPのビジョン埋め込みはゼロショット転送とタスクベースの微調整を提供する。
その結果,このフレームワークは,ゼロショット転送における最先端のパフォーマンスと,2つの公開データセット上でのドライバの状態を予測するビデオベースのクリップを提供する。
本稿では,CLIPの視覚表現をベースとしたフレームベースとビデオベースの両方のフレームワークを提案する。
関連論文リスト
- Towards Infusing Auxiliary Knowledge for Distracted Driver Detection [11.816566371802802]
引き離された運転は世界中の道路事故の主要な原因である。
シーン内のエンティティ間の意味的関係とドライバのポーズの構造的構成に関する補助的知識を注入することで,運転者検出(DDD)の新たな手法であるKiD3を提案する。
具体的には、シーングラフを統合した統合フレームワークを構築し、ドライバが映像フレーム内の視覚的手がかりと情報を合成し、ドライバの行動の全体像を作成する。
論文 参考訳(メタデータ) (2024-08-29T15:28:42Z) - Federated Learning for Drowsiness Detection in Connected Vehicles [0.19116784879310028]
ドライバー監視システムは、ドライバーの状態を決定するのを助けることができる。
ドライバーの眠気検出は潜在的な解決策を示す。
モデルトレーニングのためにデータを中央マシンに送信するのは、大規模なデータサイズとプライバシの懸念のため、現実的ではありません。
本稿では,YawDDデータセットを活用して,車両ネットワーク内での眠気検出のためのフェデレート学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T09:39:13Z) - Driver Activity Classification Using Generalizable Representations from Vision-Language Models [0.0]
本稿では,視覚言語モデルからの一般化可能な表現をドライバ活動分類に活用する新しいアプローチを提案する。
この結果から,視覚言語表現は運転監視システムにとって有望な道筋であることが示唆された。
論文 参考訳(メタデータ) (2024-04-23T10:42:24Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - TransDARC: Transformer-based Driver Activity Recognition with Latent
Space Feature Calibration [31.908276711898548]
本稿では、視覚変換器に基づく二次運転行動認識のための視覚ベースのフレームワークと、機能分散キャリブレーションモジュールを提案する。
当社のフレームワークは,すべてのレベルにおいて,公的なDrive&Actベンチマークの過去の成果を上回り,認識率を常に向上させています。
論文 参考訳(メタデータ) (2022-03-02T08:14:06Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Self-Supervised Steering Angle Prediction for Vehicle Control Using
Visual Odometry [55.11913183006984]
視覚オドメトリー法を用いて推定したカメラポーズを用いて,車両の軌道制御をモデルに訓練する方法を示す。
車両の前方にカメラを設置することにより,複数の異なる走行経路からの軌跡情報を活用するスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-20T16:29:01Z) - The Multimodal Driver Monitoring Database: A Naturalistic Corpus to
Study Driver Attention [44.94118128276982]
スマートな車両は、人間の運転者の行動や行動を監視して、必要な時に警告や介入を行う必要がある。
深層学習とコンピュータビジョンの最近の進歩は、人間の行動や活動を監視する上で大きな約束を示しています。
運転関連タスクの予測に高性能を提供するモデルのトレーニングには、ドメイン内の膨大なデータが必要である。
論文 参考訳(メタデータ) (2020-12-23T16:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。