Fugu-MT 論文翻訳(概要): ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding

論文の概要: ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding

arxiv url: http://arxiv.org/abs/2410.00982v2
Date: Mon, 13 Jan 2025 16:27:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 21:19:24.729565
Title: ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding
Title（参考訳）: ScVLM:安全クリティカルイベント理解のためのビジョンランゲージモデル
Authors: Liang Shi, Boyu Jiang, Tong Zeng, Feng Guo,
Abstract要約: SCEの重症度とタイプを分類するために,教師付きおよびコントラスト学習技術を統合した新しいハイブリッド手法であるScVLMを紹介する。提案手法は,第2戦略ハイウェイ研究プログラム自然言語駆動学習データセットから8,600以上のSCEを用いて訓練し,評価する。
参考スコア（独自算出の注目度）: 5.914751204116458
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurately identifying, understanding and describing traffic safety-critical events (SCEs), including crashes, tire strikes, and near-crashes, is crucial for advanced driver assistance systems, automated driving systems, and traffic safety. As SCEs are rare events, most general vision-language models (VLMs) have not been trained sufficiently to link SCE videos and narratives, which could lead to hallucinations and missing key safety characteristics. Here, we introduce ScVLM, a novel hybrid methodology that integrates supervised and contrastive learning techniques to classify the severity and types of SCEs, as well as to generate narrative descriptions of SCEs. This approach utilizes classification to enhance VLMs' comprehension of driving videos and improve the rationality of event descriptions. The proposed approach is trained on and evaluated by more than 8,600 SCEs from the Second Strategic Highway Research Program Naturalistic Driving Study dataset, the largest publicly accessible driving dataset with videos and SCE annotations. The results demonstrate the superiority of the proposed approach in generating contextually accurate event descriptions and mitigating VLM hallucinations. The code will be available at https://github.com/datadrivenwheels/ScVLM.
Abstract（参考訳）: 事故、タイヤストライク、ほぼクラッシュを含む交通安全クリティカルイベント(SCE)の正確な識別、理解、記述は、先進運転支援システム、自動運転システム、交通安全にとって不可欠である。 SCEは稀な出来事であるため、ほとんどの一般的な視覚言語モデル(VLM)は、SCEビデオと物語をリンクするのに十分な訓練を受けておらず、幻覚と主要な安全特性を欠く可能性がある。本稿では,SCEの重症度とタイプを分類し,SCEの物語記述を生成するために,教師付き・コントラスト学習技術を統合した新しいハイブリッド手法であるScVLMを紹介する。本手法は,VLMの運転映像の理解を高め,イベント記述の合理性を向上させるために分類を利用する。提案手法は,ビデオとSCEアノテーションを備えた最大公用運転データセットである,第2戦略ハイウェイ研究プログラムの自然言語駆動学習データセットから,8,600以上のSCEをトレーニングし,評価する。その結果、文脈的に正確な事象記述を生成し、VLM幻覚を緩和する手法の優位性を示した。コードはhttps://github.com/datadrivenwheels/ScVLMで入手できる。

関連論文リスト

SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文参考訳（メタデータ） (2025-02-28T21:53:47Z)
CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。 CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-21T00:42:40Z)
When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文参考訳（メタデータ） (2025-01-17T23:35:34Z)
Vision-Language Models for Autonomous Driving: CLIP-Based Dynamic Scene Understanding [5.578400344096341]
本研究では,コントラスト言語-画像事前学習(CLIP)モデルを用いた動的シーン検索システムを開発した。提案システムは,GPT-4oのゼロショット機能を含む,最先端のコンテキスト内学習手法より優れている。
論文参考訳（メタデータ） (2025-01-09T20:29:31Z)
Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文参考訳（メタデータ） (2024-06-19T23:50:41Z)
Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models [16.452638202694246]
本研究は、自動運転におけるハードケースの検出におけるビジョン・ランゲージ・ファンデーション・モデル(VLM)の可能性を探るものである。設計したプロンプトで逐次画像フレームを供給し,課題のあるエージェントやシナリオを効果的に識別する,実現可能なパイプラインを提案する。 NuScenesデータセット上で、パイプラインを最先端の手法に組み込むことの有効性と可能性を示す。
論文参考訳（メタデータ） (2024-05-31T16:35:41Z)
ChatScene: Knowledge-Enabled Safety-Critical Scenario Generation for Autonomous Vehicles [17.396416459648755]
ChatSceneはLarge Language Model(LLM)ベースのエージェントで、自動運転車の安全クリティカルなシナリオを生成する。エージェントの重要な部分は包括的知識検索コンポーネントであり、特定のテキスト記述を対応するドメイン固有のコードスニペットに効率的に翻訳する。
論文参考訳（メタデータ） (2024-05-22T23:21:15Z)
Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文参考訳（メタデータ） (2024-03-13T05:48:58Z)
Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文参考訳（メタデータ） (2023-12-13T23:06:30Z)
Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。 LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文参考訳（メタデータ） (2023-11-28T03:13:09Z)
Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos [29.529768377746194]
本稿では,CLIPに基づく運転行動認識手法を提案する。以上の結果から、このフレームワークは、ゼロショット転送における最先端のパフォーマンスと、2つの公開データセット上でドライバの状態を予測するためのビデオベースCLIPを提供する。
論文参考訳（メタデータ） (2023-06-16T20:02:51Z)
Camera-Radar Perception for Autonomous Vehicles and ADAS: Concepts, Datasets and Metrics [77.34726150561087]
本研究の目的は、ADASおよび自動運転車のカメラおよびレーダーによる認識の現在のシナリオに関する研究を行うことである。両センサと融合に関する概念と特徴を提示する。本稿では、ディープラーニングに基づく検出とセグメンテーションタスクの概要と、車両の認識における主要なデータセット、メトリクス、課題、オープンな質問について説明する。
論文参考訳（メタデータ） (2023-03-08T00:48:32Z)
Cognitive Accident Prediction in Driving Scenes: A Multimodality Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。 CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文参考訳（メタデータ） (2022-12-19T11:43:02Z)
FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文参考訳（メタデータ） (2022-12-05T08:25:09Z)
Federated Deep Learning Meets Autonomous Vehicle Perception: Design and Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。 FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文参考訳（メタデータ） (2022-06-03T23:55:45Z)
DRIVE: Deep Reinforced Accident Anticipation with Visual Explanation [36.350348194248014]
交通事故予測は、ダッシュカムビデオから将来の事故の発生を正確にかつ迅速に予測することを目的としている。既存のアプローチは通常、将来の事故が起こる前に、空間的および時間的文脈の手がかりを捉えることに重点を置いている。本稿では, DRIVE という視覚表現を用いた深部強化型事故予測手法を提案する。
論文参考訳（メタデータ） (2021-07-21T16:33:21Z)
Driver Intention Anticipation Based on In-Cabin and Driving Scene Monitoring [52.557003792696484]
本稿では,車内映像と交通シーン映像の両方に基づいて運転者の意図を検出する枠組みを提案する。本フレームワークは,83.98%,F1スコア84.3%の精度で予測を行う。
論文参考訳（メタデータ） (2020-06-20T11:56:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。