論文の概要: Enhancing Multimodal Large Language Models for Safety-Critical Driving Video Analysis
- arxiv url: http://arxiv.org/abs/2605.22185v1
- Date: Thu, 21 May 2026 08:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.172907
- Title: Enhancing Multimodal Large Language Models for Safety-Critical Driving Video Analysis
- Title(参考訳): 安全臨界運転映像解析のためのマルチモーダル大言語モデルの強化
- Authors: Tomaso Trinci, Henrique Piñeiro Monteagudo, Leonardo Taccari,
- Abstract要約: 我々は、高同期周波数データ(IMUとGPS)でダウンサンプリングされたビデオフレームを融合させることでMLLM知覚を向上させるパイプラインを導入する。
我々のパイプラインは高品質な擬似ラベルを生成し、例えば説明キャプションと質問応答ペアは、現実世界の運転映像における安全批判事象(SCE)を特定し記述するためにMLLMを訓練するために特別に設計されている。
- 参考スコア(独自算出の注目度): 3.4519451553496965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in general visual understanding. However, their application to safety-critical driving scenarios remains limited by an inability to accurately perceive and reason about rare high-stakes dynamic events, such as collisions or near-collisions. To address this, we introduce a pipeline that enhances MLLM perception by fusing downsampled video frames with synchronized high-frequency telematics data (IMU and GPS) and semantic insights from specialized computer vision models. Our pipeline generates high-quality pseudo-labels, including descriptive captions and question-answer pairs, specifically designed to train MLLMs to identify and describe Safety-Critical Events (SCEs) in real-world driving footage. We show the effectiveness of our approach fine-tuning the open-source QwenVL-2.5 model via DoRA adapters: our experiments demonstrate significant improvements in identifying and explaining safety-critical events, with fewer than 50M trainable parameters and limited computational budget.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、一般的な視覚的理解において印象的な能力を示している。
しかしながら、安全クリティカルな運転シナリオへの応用は、衝突や近接衝突のような稀な高速度の動的事象を正確に知覚し、推論できないことで制限されている。
これを解決するために、我々は、ダウンサンプリングされたビデオフレームを同期した高周波テレマティクスデータ(IMUとGPS)と、特殊なコンピュータビジョンモデルからのセマンティックインサイトとを融合させてMLLM知覚を高めるパイプラインを導入する。
我々のパイプラインは高品質な擬似ラベルを生成し、例えば説明キャプションと質問応答ペアは、現実世界の運転映像における安全批判事象(SCE)を特定し記述するためにMLLMを訓練するために特別に設計されている。
我々は,オープンソースQwenVL-2.5モデルをDoRAアダプタを用いて微調整する手法の有効性を示した。
関連論文リスト
- DiffAttn: Diffusion-Based Drivers' Visual Attention Prediction with LLM-Enhanced Semantic Reasoning [4.57409624068048]
本稿では、ドライバの認識パターンをエミュレートし、インテリジェントな車両の視覚的注意予測を促進するためのDiffAttnを提案する。
我々のフレームワークは、インテリジェントな車両における車内人間と機械の相互作用、リスク知覚、運転者の状態測定を改善する可能性を秘めている。
論文 参考訳(メタデータ) (2026-03-30T10:24:20Z) - Toward Automatic Safe Driving Instruction: A Large-Scale Vision Language Model Approach [45.45569862912077]
大規模視覚言語モデル(LVLM)は、オブジェクト検出を含む視覚情報を必要とするタスクにおいて高度な機能を示す。
本研究では,LVLMをモデルとして構築し,その性能を評価することにより,LVLMの能力について検討する。
実験の結果,事前学習したLVLMは有効性に乏しいが,微調整したLVLMは正確かつ安全に配慮した運転指示を生成できることがわかった。
論文 参考訳(メタデータ) (2025-11-28T16:09:36Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。
大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。