論文の概要: ScVLM: a Vision-Language Model for Driving Safety Critical Event Understanding
- arxiv url: http://arxiv.org/abs/2410.00982v1
- Date: Tue, 1 Oct 2024 18:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 23:49:57.122661
- Title: ScVLM: a Vision-Language Model for Driving Safety Critical Event Understanding
- Title(参考訳): ScVLM:安全臨界事象理解のためのビジョンランゲージモデル
- Authors: Liang Shi, Boyu Jiang, Feng Guo,
- Abstract要約: 教師付き学習とコントラスト学習を組み合わせたハイブリッド手法であるScVLMを提案する。
提案手法は,第2戦略ハイウェイ研究プログラム自然言語駆動学習データセットから8,600以上のSCEを用いて訓練し,評価する。
- 参考スコア(独自算出の注目度): 6.461440777667878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately identifying, understanding, and describing driving safety-critical events (SCEs), including crashes and near-crashes, is crucial for traffic safety, automated driving systems, and advanced driver assistance systems research and application. As SCEs are rare events, most general Vision-Language Models (VLMs) have not been trained sufficiently to link SCE videos and narratives, which could lead to hallucination and missing key safety characteristics. To tackle these challenges, we propose ScVLM, a hybrid approach that combines supervised learning and contrastive learning to improve driving video understanding and event description rationality for VLMs. The proposed approach is trained on and evaluated by more than 8,600 SCEs from the Second Strategic Highway Research Program Naturalistic Driving Study dataset, the largest publicly accessible driving dataset with videos and SCE annotations. The results demonstrate the superiority of the proposed approach in generating contextually accurate event descriptions and mitigate hallucinations from VLMs.
- Abstract(参考訳): 事故やほぼクラッシュを含む運転安全クリティカルイベント(SCE)の正確な識別、理解、記述は、交通安全、自動運転システム、高度な運転支援システムの研究と応用に不可欠である。
SCEは稀な出来事であるため、ほとんどの一般の視覚言語モデル(VLM)は、SCEビデオと物語を結びつけるのに十分な訓練を受けておらず、幻覚と主要な安全特性の欠如につながる可能性がある。
これらの課題に対処するために、教師付き学習とコントラスト学習を組み合わせたハイブリッドアプローチであるScVLMを提案し、VLMの動画理解とイベント記述合理性を改善する。
提案手法は,ビデオとSCEアノテーションを備えた最大公用運転データセットである,第2戦略ハイウェイ研究プログラムの自然言語駆動学習データセットから,8,600以上のSCEをトレーニングし,評価する。
提案手法は, 文脈的に正確な事象記述を生成し, VLMからの幻覚を緩和する手法として, 提案手法の優位性を示す。
関連論文リスト
- SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。
構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。
我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。
CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-21T00:42:40Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - Vision-Language Models for Autonomous Driving: CLIP-Based Dynamic Scene Understanding [5.578400344096341]
本研究では,コントラスト言語-画像事前学習(CLIP)モデルを用いた動的シーン検索システムを開発した。
提案システムは,GPT-4oのゼロショット機能を含む,最先端のコンテキスト内学習手法より優れている。
論文 参考訳(メタデータ) (2025-01-09T20:29:31Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models [16.452638202694246]
本研究は、自動運転におけるハードケースの検出におけるビジョン・ランゲージ・ファンデーション・モデル(VLM)の可能性を探るものである。
設計したプロンプトで逐次画像フレームを供給し,課題のあるエージェントやシナリオを効果的に識別する,実現可能なパイプラインを提案する。
NuScenesデータセット上で、パイプラインを最先端の手法に組み込むことの有効性と可能性を示す。
論文 参考訳(メタデータ) (2024-05-31T16:35:41Z) - ChatScene: Knowledge-Enabled Safety-Critical Scenario Generation for Autonomous Vehicles [17.396416459648755]
ChatSceneはLarge Language Model(LLM)ベースのエージェントで、自動運転車の安全クリティカルなシナリオを生成する。
エージェントの重要な部分は包括的知識検索コンポーネントであり、特定のテキスト記述を対応するドメイン固有のコードスニペットに効率的に翻訳する。
論文 参考訳(メタデータ) (2024-05-22T23:21:15Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos [29.529768377746194]
本稿では,CLIPに基づく運転行動認識手法を提案する。
以上の結果から、このフレームワークは、ゼロショット転送における最先端のパフォーマンスと、2つの公開データセット上でドライバの状態を予測するためのビデオベースCLIPを提供する。
論文 参考訳(メタデータ) (2023-06-16T20:02:51Z) - Camera-Radar Perception for Autonomous Vehicles and ADAS: Concepts,
Datasets and Metrics [77.34726150561087]
本研究の目的は、ADASおよび自動運転車のカメラおよびレーダーによる認識の現在のシナリオに関する研究を行うことである。
両センサと融合に関する概念と特徴を提示する。
本稿では、ディープラーニングに基づく検出とセグメンテーションタスクの概要と、車両の認識における主要なデータセット、メトリクス、課題、オープンな質問について説明する。
論文 参考訳(メタデータ) (2023-03-08T00:48:32Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。
本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。
インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - DRIVE: Deep Reinforced Accident Anticipation with Visual Explanation [36.350348194248014]
交通事故予測は、ダッシュカムビデオから将来の事故の発生を正確にかつ迅速に予測することを目的としている。
既存のアプローチは通常、将来の事故が起こる前に、空間的および時間的文脈の手がかりを捉えることに重点を置いている。
本稿では, DRIVE という視覚表現を用いた深部強化型事故予測手法を提案する。
論文 参考訳(メタデータ) (2021-07-21T16:33:21Z) - Driver Intention Anticipation Based on In-Cabin and Driving Scene
Monitoring [52.557003792696484]
本稿では,車内映像と交通シーン映像の両方に基づいて運転者の意図を検出する枠組みを提案する。
本フレームワークは,83.98%,F1スコア84.3%の精度で予測を行う。
論文 参考訳(メタデータ) (2020-06-20T11:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。