論文の概要: ScVLM: a Vision-Language Model for Driving Safety Critical Event Understanding
- arxiv url: http://arxiv.org/abs/2410.00982v1
- Date: Tue, 1 Oct 2024 18:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:49:57.122661
- Title: ScVLM: a Vision-Language Model for Driving Safety Critical Event Understanding
- Title(参考訳): ScVLM:安全臨界事象理解のためのビジョンランゲージモデル
- Authors: Liang Shi, Boyu Jiang, Feng Guo,
- Abstract要約: 教師付き学習とコントラスト学習を組み合わせたハイブリッド手法であるScVLMを提案する。
提案手法は,第2戦略ハイウェイ研究プログラム自然言語駆動学習データセットから8,600以上のSCEを用いて訓練し,評価する。
- 参考スコア(独自算出の注目度): 6.461440777667878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately identifying, understanding, and describing driving safety-critical events (SCEs), including crashes and near-crashes, is crucial for traffic safety, automated driving systems, and advanced driver assistance systems research and application. As SCEs are rare events, most general Vision-Language Models (VLMs) have not been trained sufficiently to link SCE videos and narratives, which could lead to hallucination and missing key safety characteristics. To tackle these challenges, we propose ScVLM, a hybrid approach that combines supervised learning and contrastive learning to improve driving video understanding and event description rationality for VLMs. The proposed approach is trained on and evaluated by more than 8,600 SCEs from the Second Strategic Highway Research Program Naturalistic Driving Study dataset, the largest publicly accessible driving dataset with videos and SCE annotations. The results demonstrate the superiority of the proposed approach in generating contextually accurate event descriptions and mitigate hallucinations from VLMs.
- Abstract(参考訳): 事故やほぼクラッシュを含む運転安全クリティカルイベント(SCE)の正確な識別、理解、記述は、交通安全、自動運転システム、高度な運転支援システムの研究と応用に不可欠である。
SCEは稀な出来事であるため、ほとんどの一般の視覚言語モデル(VLM)は、SCEビデオと物語を結びつけるのに十分な訓練を受けておらず、幻覚と主要な安全特性の欠如につながる可能性がある。
これらの課題に対処するために、教師付き学習とコントラスト学習を組み合わせたハイブリッドアプローチであるScVLMを提案し、VLMの動画理解とイベント記述合理性を改善する。
提案手法は,ビデオとSCEアノテーションを備えた最大公用運転データセットである,第2戦略ハイウェイ研究プログラムの自然言語駆動学習データセットから,8,600以上のSCEをトレーニングし,評価する。
提案手法は, 文脈的に正確な事象記述を生成し, VLMからの幻覚を緩和する手法として, 提案手法の優位性を示す。
関連論文リスト
- Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models [16.452638202694246]
本研究は、自動運転におけるハードケースの検出におけるビジョン・ランゲージ・ファンデーション・モデル(VLM)の可能性を探るものである。
設計したプロンプトで逐次画像フレームを供給し,課題のあるエージェントやシナリオを効果的に識別する,実現可能なパイプラインを提案する。
NuScenesデータセット上で、パイプラインを最先端の手法に組み込むことの有効性と可能性を示す。
論文 参考訳(メタデータ) (2024-05-31T16:35:41Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos [29.529768377746194]
本稿では,CLIPに基づく運転行動認識手法を提案する。
以上の結果から、このフレームワークは、ゼロショット転送における最先端のパフォーマンスと、2つの公開データセット上でドライバの状態を予測するためのビデオベースCLIPを提供する。
論文 参考訳(メタデータ) (2023-06-16T20:02:51Z) - Camera-Radar Perception for Autonomous Vehicles and ADAS: Concepts,
Datasets and Metrics [77.34726150561087]
本研究の目的は、ADASおよび自動運転車のカメラおよびレーダーによる認識の現在のシナリオに関する研究を行うことである。
両センサと融合に関する概念と特徴を提示する。
本稿では、ディープラーニングに基づく検出とセグメンテーションタスクの概要と、車両の認識における主要なデータセット、メトリクス、課題、オープンな質問について説明する。
論文 参考訳(メタデータ) (2023-03-08T00:48:32Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。
本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。
インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - DRIVE: Deep Reinforced Accident Anticipation with Visual Explanation [36.350348194248014]
交通事故予測は、ダッシュカムビデオから将来の事故の発生を正確にかつ迅速に予測することを目的としている。
既存のアプローチは通常、将来の事故が起こる前に、空間的および時間的文脈の手がかりを捉えることに重点を置いている。
本稿では, DRIVE という視覚表現を用いた深部強化型事故予測手法を提案する。
論文 参考訳(メタデータ) (2021-07-21T16:33:21Z) - Driver Intention Anticipation Based on In-Cabin and Driving Scene
Monitoring [52.557003792696484]
本稿では,車内映像と交通シーン映像の両方に基づいて運転者の意図を検出する枠組みを提案する。
本フレームワークは,83.98%,F1スコア84.3%の精度で予測を行う。
論文 参考訳(メタデータ) (2020-06-20T11:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。