論文の概要: SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2503.00211v2
- Date: Fri, 06 Jun 2025 10:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.868223
- Title: SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models
- Title(参考訳): SafeAuto: マルチモーダルファンデーションモデルによる知識強化された安全な自律運転
- Authors: Jiawei Zhang, Xuan Yang, Taiqi Wang, Yu Yao, Aleksandr Petiushko, Bo Li,
- Abstract要約: 我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
- 参考スコア(独自算出の注目度): 63.71984266104757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional autonomous driving systems often struggle to connect high-level reasoning with low-level control, leading to suboptimal and sometimes unsafe behaviors. Recent advances in multimodal large language models (MLLMs), which process both visual and textual data, offer an opportunity to unify perception and reasoning. However, effectively embedding precise safety knowledge into MLLMs for autonomous driving remains a significant challenge. To address this, we propose SafeAuto, a framework that enhances MLLM-based autonomous driving by incorporating both unstructured and structured knowledge. First, we introduce a Position-Dependent Cross-Entropy (PDCE) loss to improve low-level control signal predictions when values are represented as text. Second, to explicitly integrate safety knowledge, we develop a reasoning component that translates traffic rules into first-order logic (e.g., "red light $\implies$ stop") and embeds them into a probabilistic graphical model (e.g., Markov Logic Network) to verify predicted actions using recognized environmental attributes. Additionally, our Multimodal Retrieval-Augmented Generation (RAG) model leverages video, control signals, and environmental attributes to learn from past driving experiences. Integrating PDCE, MLN, and Multimodal RAG, SafeAuto outperforms existing baselines across multiple datasets, enabling more accurate, reliable, and safer autonomous driving. The code is available at https://github.com/AI-secure/SafeAuto.
- Abstract(参考訳): 従来の自律運転システムは、しばしば高レベルの推論と低レベルの制御を結びつけるのに苦労する。
近年のマルチモーダル大言語モデル(MLLM)の進歩は、視覚的データとテキスト的データの両方を処理し、認識と推論を統一する機会を提供する。
しかし、自動運転のためのMLLMに正確な安全知識を効果的に組み込むことは、大きな課題である。
そこで我々は,構造化されていない知識と構造化されていない知識の両方を取り入れ,MLLMに基づく自動運転を強化するフレームワークであるSafeAutoを提案する。
まず、位置依存型クロスエントロピー(PDCE)ロスを導入し、値がテキストとして表現されるときの低レベル制御信号予測を改善する。
第2に,交通ルールを一階述語論理(red light $\implies$ stop)に変換し,確率的グラフィカルモデル(Markov Logic Networkなど)に組み込んで,認識された環境属性を用いた予測動作の検証を行う。
さらに、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を利用したマルチモーダル検索・拡張生成(RAG)モデルを構築した。
PDCE、MLN、Multimodal RAGを統合したSafeAutoは、既存のベースラインを複数のデータセットで上回り、より正確で信頼性が高く、より安全な自動運転を可能にする。
コードはhttps://github.com/AI-Secure/SafeAutoで公開されている。
関連論文リスト
- LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving [9.447298958886265]
VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。
光EMMA(Lightweight End-to-End Multimodal Model for autonomous driving)を紹介する。
様々なVLMを用いて12個の自律運転エージェントを構築し,その性能をnuScenes予測タスクで評価する。
論文 参考訳(メタデータ) (2025-05-01T04:12:41Z) - SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models [14.790308656087316]
SafeDriveは、自律運転の安全性と適応性を高めるための、知識とデータ駆動型リスクに敏感な意思決定フレームワークである。
知識駆動型洞察と適応学習機構を統合することにより、不確実な条件下での堅牢な意思決定を保証する。
論文 参考訳(メタデータ) (2024-12-17T16:45:27Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - A Superalignment Framework in Autonomous Driving with Large Language Models [2.650382010271]
大規模言語モデル (LLM) と多モード大規模言語モデル (MLLM) は、自律運転において広く使われている。
その重要性にもかかわらず、自動運転におけるLLMのセキュリティの側面は未解明のままである。
本研究は,マルチエージェントLLMアプローチを利用した,自動運転車の新たなセキュリティフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T05:26:38Z) - DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in
Autonomous Driving [65.04871316921327]
本稿では,自律運転システムの性能と信頼性を高める新しい自律運転システムを提案する。
DME-Driverは、意思決定者として強力な視覚言語モデル、制御信号生成者として計画指向認識モデルを利用する。
このデータセットを利用することで、論理的思考プロセスを通じて高精度な計画精度を実現する。
論文 参考訳(メタデータ) (2024-01-08T03:06:02Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。