論文の概要: SafeDriveRAG: Towards Safe Autonomous Driving with Knowledge Graph-based Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2507.21585v1
- Date: Tue, 29 Jul 2025 08:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.864594
- Title: SafeDriveRAG: Towards Safe Autonomous Driving with Knowledge Graph-based Retrieval-Augmented Generation
- Title(参考訳): SafeDriveRAG:知識グラフに基づく検索生成による安全な自律運転を目指して
- Authors: Hao Ye, Mengshi Qi, Zhaohong Liu, Liang Liu, Huadong Ma,
- Abstract要約: 視覚言語モデル(VLM)は、自律運転システムの安全性を高めるために利用することができる。
既存の研究は、交通安全クリティカルな運転シナリオにおけるこれらのモデルの評価を概ね見落としている。
本稿では,視覚的質問応答のための知識グラフに基づく検索拡張生成を用いたVLMに基づく新しいベースラインを提案する。
- 参考スコア(独自算出の注目度): 27.135615596331263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study how vision-language models (VLMs) can be utilized to enhance the safety for the autonomous driving system, including perception, situational understanding, and path planning. However, existing research has largely overlooked the evaluation of these models in traffic safety-critical driving scenarios. To bridge this gap, we create the benchmark (SafeDrive228K) and propose a new baseline based on VLM with knowledge graph-based retrieval-augmented generation (SafeDriveRAG) for visual question answering (VQA). Specifically, we introduce SafeDrive228K, the first large-scale multimodal question-answering benchmark comprising 228K examples across 18 sub-tasks. This benchmark encompasses a diverse range of traffic safety queries, from traffic accidents and corner cases to common safety knowledge, enabling a thorough assessment of the comprehension and reasoning abilities of the models. Furthermore, we propose a plug-and-play multimodal knowledge graph-based retrieval-augmented generation approach that employs a novel multi-scale subgraph retrieval algorithm for efficient information retrieval. By incorporating traffic safety guidelines collected from the Internet, this framework further enhances the model's capacity to handle safety-critical situations. Finally, we conduct comprehensive evaluations on five mainstream VLMs to assess their reliability in safety-sensitive driving tasks. Experimental results demonstrate that integrating RAG significantly improves performance, achieving a +4.73% gain in Traffic Accidents tasks, +8.79% in Corner Cases tasks and +14.57% in Traffic Safety Commonsense across five mainstream VLMs, underscoring the potential of our proposed benchmark and methodology for advancing research in traffic safety. Our source code and data are available at https://github.com/Lumos0507/SafeDriveRAG.
- Abstract(参考訳): 本研究では、視覚言語モデル(VLM)を用いて、認識、状況理解、経路計画を含む自律運転システムの安全性を高める方法について検討する。
しかし、既存の研究は、交通安全クリティカルな運転シナリオにおけるこれらのモデルの評価を概ね見落としている。
このギャップを埋めるために、ベンチマーク(SafeDrive228K)を作成し、知識グラフに基づく検索強化生成(SafeDriveRAG)による視覚的質問応答(VQA)のためのVLMに基づく新しいベースラインを提案する。
具体的には,18のサブタスクにまたがる228K例からなる,最初の大規模マルチモーダル質問応答ベンチマークであるSafeDrive228Kを紹介する。
このベンチマークは、交通事故やコーナーケースから一般的な安全知識まで、さまざまな交通安全クエリを含んでおり、モデルの理解と推論能力の徹底的な評価を可能にしている。
さらに,効率的な情報検索のために,新しいマルチスケールサブグラフ検索アルゴリズムを用いたマルチモーダル知識グラフに基づく検索拡張生成手法を提案する。
インターネットから収集された交通安全ガイドラインを取り入れることで、このフレームワークは安全クリティカルな状況に対処するモデルの能力をさらに強化する。
最後に、安全に敏感な運転作業における信頼性を評価するため、5つの主流VLMの総合評価を行う。
実験の結果,RAGの統合により,交通事故タスクの+4.73%,コーネルケースタスクの+8.79%,交通安全コモンセンスの+14.57%,5つの主流VLMにおけるパフォーマンス向上が達成された。
ソースコードとデータはhttps://github.com/Lumos0507/SafeDriveRAG.comで公開されています。
関連論文リスト
- SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models [14.790308656087316]
SafeDriveは、自律運転の安全性と適応性を高めるための、知識とデータ駆動型リスクに敏感な意思決定フレームワークである。
知識駆動型洞察と適応学習機構を統合することにより、不確実な条件下での堅牢な意思決定を保証する。
論文 参考訳(メタデータ) (2024-12-17T16:45:27Z) - Is it safe to cross? Interpretable Risk Assessment with GPT-4V for Safety-Aware Street Crossing [8.468153670795443]
本稿では,大規模なマルチモーダルモデル(LMM)を活用し,複雑な交差点シーンを解釈する革新的な手法を提案する。
安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
論文 参考訳(メタデータ) (2024-02-09T21:37:13Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - A Counterfactual Safety Margin Perspective on the Scoring of Autonomous
Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。
本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文 参考訳(メタデータ) (2023-08-02T09:48:08Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Deep Learning Serves Traffic Safety Analysis: A Forward-looking Review [4.228522109021283]
本稿では,トラヒックビデオの理解と解釈に使用できる,典型的な処理パイプラインを提案する。
この処理フレームワークは、ビデオ強調、ビデオ安定化、セマンティックおよびインシデントセグメンテーション、オブジェクト検出と分類、軌道抽出、速度推定、イベント分析、モデリング、異常検出を含む。
論文 参考訳(メタデータ) (2022-03-07T17:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。