論文の概要: Driver Activity Classification Using Generalizable Representations from Vision-Language Models
- arxiv url: http://arxiv.org/abs/2404.14906v1
- Date: Tue, 23 Apr 2024 10:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:31:13.197324
- Title: Driver Activity Classification Using Generalizable Representations from Vision-Language Models
- Title(参考訳): 視覚言語モデルからの一般化可能な表現を用いたドライバアクティビティの分類
- Authors: Ross Greer, Mathias Viborg Andersen, Andreas Møgelmose, Mohan Trivedi,
- Abstract要約: 本稿では,視覚言語モデルからの一般化可能な表現をドライバ活動分類に活用する新しいアプローチを提案する。
この結果から,視覚言語表現は運転監視システムにとって有望な道筋であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver activity classification is crucial for ensuring road safety, with applications ranging from driver assistance systems to autonomous vehicle control transitions. In this paper, we present a novel approach leveraging generalizable representations from vision-language models for driver activity classification. Our method employs a Semantic Representation Late Fusion Neural Network (SRLF-Net) to process synchronized video frames from multiple perspectives. Each frame is encoded using a pretrained vision-language encoder, and the resulting embeddings are fused to generate class probability predictions. By leveraging contrastively-learned vision-language representations, our approach achieves robust performance across diverse driver activities. We evaluate our method on the Naturalistic Driving Action Recognition Dataset, demonstrating strong accuracy across many classes. Our results suggest that vision-language representations offer a promising avenue for driver monitoring systems, providing both accuracy and interpretability through natural language descriptors.
- Abstract(参考訳): ドライバーアクティビティの分類は、運転支援システムから自動運転車制御移行に至るまで、道路安全を確保するために不可欠である。
本稿では,視覚言語モデルからの一般化可能な表現をドライバ活動分類に活用する新しい手法を提案する。
複数の視点から映像フレームの同期処理を行うために,Semantic Representation Late Fusion Neural Network (SRLF-Net) を用いる。
各フレームは事前訓練された視覚言語エンコーダを用いて符号化され、その結果の埋め込みは融合してクラス確率予測を生成する。
対照的に学習した視覚言語表現を利用することで,多様なドライバー活動における堅牢な性能を実現する。
本研究では,多くのクラスにまたがって高い精度を示す自然主義運転行動認識データセットについて評価を行った。
この結果から,視覚言語表現はドライバ監視システムにとって有望な手段であり,自然言語記述子による精度と解釈性の両方を提供すると考えられる。
関連論文リスト
- Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。
本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文 参考訳(メタデータ) (2024-11-08T15:50:30Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - Language-Enhanced Latent Representations for Out-of-Distribution Detection in Autonomous Driving [1.3499500088995464]
マルチモーダル入力は、人間の言語を潜在表現として捉える可能性を提供する。
本稿では,マルチモーダルモデルCLIPで符号化された画像とテキストのコサイン類似性を新しい表現として利用する。
現実的な駆動データを用いた実験により,言語に基づく潜在表現は従来の視覚エンコーダの表現よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-02T19:27:28Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Looking for a better fit? An Incremental Learning Multimodal Object
Referencing Framework adapting to Individual Drivers [0.0]
自動車産業の急速な進歩により、タッチベースや音声コマンドシステムといった従来の車両のインタラクション方法は、車両外の物体を参照するなど、幅広い非運転関連のタスクには不十分である。
textitIcRegressは、オブジェクトの駆動と参照という2つのタスクに携わるドライバーの振る舞いや特徴に適応する、新しい回帰に基づく漸進的学習手法である。
論文 参考訳(メタデータ) (2024-01-29T12:48:56Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos [29.529768377746194]
本稿では,CLIPに基づく運転行動認識手法を提案する。
以上の結果から、このフレームワークは、ゼロショット転送における最先端のパフォーマンスと、2つの公開データセット上でドライバの状態を予測するためのビデオベースCLIPを提供する。
論文 参考訳(メタデータ) (2023-06-16T20:02:51Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。