論文の概要: SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2503.00211v1
- Date: Fri, 28 Feb 2025 21:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:00.649973
- Title: SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models
- Title(参考訳): SafeAuto: マルチモーダルファンデーションモデルによる知識強化された安全な自律運転
- Authors: Jiawei Zhang, Xuan Yang, Taiqi Wang, Yu Yao, Aleksandr Petiushko, Bo Li,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。
構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
- 参考スコア(独自算出の注目度): 63.71984266104757
- License:
- Abstract: Traditional autonomous driving systems often struggle to integrate high-level reasoning with low-level control, resulting in suboptimal and sometimes unsafe driving behaviors. The emergence of Multimodal Large Language Models (MLLMs), which can process both visual and textual data, presents an opportunity to unify perception and reasoning tasks within a single framework. However, effectively embedding precise safety knowledge into MLLMs for autonomous driving remains a significant challenge. To address this, we propose SafeAuto, a novel framework that enhances MLLM-based autonomous driving systems by incorporating both unstructured and structured knowledge. Specifically, we first introduce the Position-Dependent Cross-Entropy (PDCE) loss function, designed to improve the accuracy of low-level control signal predictions when numerical values are represented as text. Second, to ensure safe autonomous driving by explicitly integrating precise safety knowledge into the MLLM, we develop a reasoning component for SafeAuto. This component translates driving safety regulations into first-order logic rules (e.g., "red light => stop") and incorporates these rules into a probabilistic graphical model, such as a Markov Logic Network (MLN). The MLN is trained to verify the predicted next actions using environmental attributes identified by attribute recognition models (e.g., detecting a red light) to form the predicates. Additionally, we construct a Multimodal RAG model that leverages video data, control signals, and environmental attributes to learn more effectively from past similar driving experiences. By integrating PDCE, MLN, and Multimodal RAG, SafeAuto significantly outperforms existing baselines across multiple datasets. This advancement enables more accurate, reliable, and safer autonomous driving systems that learn from experience, obey traffic laws, and perform precise control actions.
- Abstract(参考訳): 従来の自律運転システムは、しばしば低レベルの制御と高レベルの推論を統合するのに苦労する。
視覚データとテキストデータの両方を処理できるMLLM(Multimodal Large Language Models)の出現は、単一のフレームワーク内で認識と推論タスクを統一する機会を提供する。
しかし、自動運転のためのMLLMに正確な安全知識を効果的に組み込むことは、大きな課題である。
そこで本稿では,MLLMをベースとした自律走行システムに,非構造化知識と構造化知識の両方を取り入れた新しいフレームワークであるSafeAutoを提案する。
具体的には、まず、数値がテキストとして表されるときの低レベル制御信号予測の精度を向上させるために、位置依存クロスエントロピー(PDCE)損失関数を導入する。
第2に,MLLMに厳密な安全知識を明示的に組み込むことにより,安全な自動運転を確保するために,SafeAutoの推論コンポーネントを開発する。
このコンポーネントは、運転安全規則を一階述語論理規則(例: "red light => stop")に変換し、これらのルールをマルコフ論理ネットワーク(MLN)のような確率的グラフィカルモデルに組み込む。
MLNは、属性認識モデル(例えば、赤信号を検出する)によって識別された環境属性を用いて予測された次の行動を検証するように訓練されている。
さらに,映像データ,制御信号,環境属性を活用するマルチモーダルRAGモデルを構築し,過去の運転経験からより効果的に学習する。
PDCE、MLN、Multimodal RAGを統合することで、SafeAutoは既存のベースラインを複数のデータセットで大幅に上回る。
この進歩により、より正確で信頼性が高く、より安全な自動運転システムが、経験から学び、交通法に従い、正確な制御を行うことができる。
関連論文リスト
- SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models [14.790308656087316]
SafeDriveは、自律運転の安全性と適応性を高めるための、知識とデータ駆動型リスクに敏感な意思決定フレームワークである。
知識駆動型洞察と適応学習機構を統合することにより、不確実な条件下での堅牢な意思決定を保証する。
論文 参考訳(メタデータ) (2024-12-17T16:45:27Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - A Superalignment Framework in Autonomous Driving with Large Language Models [2.650382010271]
大規模言語モデル (LLM) と多モード大規模言語モデル (MLLM) は、自律運転において広く使われている。
その重要性にもかかわらず、自動運転におけるLLMのセキュリティの側面は未解明のままである。
本研究は,マルチエージェントLLMアプローチを利用した,自動運転車の新たなセキュリティフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T05:26:38Z) - Automatic driving lane change safety prediction model based on LSTM [3.8749946206111603]
LSTMネットワークに基づく軌道予測法は、長い時間領域における軌道予測において明らかな利点がある。
その結果、従来のモデルベース手法と比較して、LSTMネットワークに基づく軌道予測法は、長い時間領域における軌道予測において明らかな利点があることが示された。
論文 参考訳(メタデータ) (2024-02-28T12:34:04Z) - DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in
Autonomous Driving [65.04871316921327]
本稿では,自律運転システムの性能と信頼性を高める新しい自律運転システムを提案する。
DME-Driverは、意思決定者として強力な視覚言語モデル、制御信号生成者として計画指向認識モデルを利用する。
このデータセットを利用することで、論理的思考プロセスを通じて高精度な計画精度を実現する。
論文 参考訳(メタデータ) (2024-01-08T03:06:02Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。