論文の概要: A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.23540v1
- Date: Thu, 31 Jul 2025 13:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.819589
- Title: A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving
- Title(参考訳): 適応型自律運転のための統一認識言語対応フレームワーク
- Authors: Yi Zhang, Erik Leo Haß, Kuo-Yi Chao, Nenad Petrovic, Yinglei Song, Chengdong Wu, Alois Knoll,
- Abstract要約: 本稿では,マルチセンサ融合(カメラ,LiDAR,レーダ)と大規模言語モデル(LLM)を付加したVLAアーキテクチャを統合したパーセプション・ランゲージ・アクション(PLA)フレームワークを提案する。
このフレームワークは、低レベルの知覚処理と高レベルの文脈推論を統合して、コンテキスト認識、説明可能、安全に拘束された自律運転を可能にする。
- 参考スコア(独自算出の注目度): 10.685706490545956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving systems face significant challenges in achieving human-like adaptability, robustness, and interpretability in complex, open-world environments. These challenges stem from fragmented architectures, limited generalization to novel scenarios, and insufficient semantic extraction from perception. To address these limitations, we propose a unified Perception-Language-Action (PLA) framework that integrates multi-sensor fusion (cameras, LiDAR, radar) with a large language model (LLM)-augmented Vision-Language-Action (VLA) architecture, specifically a GPT-4.1-powered reasoning core. This framework unifies low-level sensory processing with high-level contextual reasoning, tightly coupling perception with natural language-based semantic understanding and decision-making to enable context-aware, explainable, and safety-bounded autonomous driving. Evaluations on an urban intersection scenario with a construction zone demonstrate superior performance in trajectory tracking, speed prediction, and adaptive planning. The results highlight the potential of language-augmented cognitive frameworks for advancing the safety, interpretability, and scalability of autonomous driving systems.
- Abstract(参考訳): 自律運転システムは、複雑でオープンな環境において、人間のような適応性、堅牢性、解釈性を達成する上で大きな課題に直面している。
これらの課題は、断片化されたアーキテクチャ、新しいシナリオへの限定的な一般化、知覚からの意味的抽出が不十分なことに起因する。
これらの制約に対処するため,マルチセンサー融合(カメラ,LiDAR,レーダ)と大規模言語モデル(LLM)拡張ビジョン・ランゲージ・アクション(VLA)アーキテクチャ,特にGPT-4.1で駆動する推論コアを統合した,パーセプション・ランゲージ・アクション(PLA)フレームワークを提案する。
このフレームワークは、低レベルの感覚処理を高レベルの文脈推論と統合し、自然言語に基づく意味理解と決定を密結合させ、コンテキスト認識、説明可能、安全に拘束された自律運転を可能にする。
建設区域を有する都市交差点シナリオの評価は, 軌道追跡, 速度予測, 適応計画において, 優れた性能を示す。
この結果は、自律運転システムの安全性、解釈可能性、拡張性を向上させるための言語強化された認知フレームワークの可能性を強調している。
関連論文リスト
- ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving [27.75047397292818]
エンドツーエンドの自動運転は、単一のフレームワーク内で認識、予測、計画を統合するための有望なアプローチとして現れています。
本稿では,3階層の認知モデルに基づいて自律運転における意思決定を構造化するReAL-ADを提案する。
我々のフレームワークを統合することで、計画の正確さと安全性が30%以上向上し、エンドツーエンドの自動運転がより解釈可能になり、人間のような階層的推論に適合することを示します。
論文 参考訳(メタデータ) (2025-07-16T02:23:24Z) - Case-based Reasoning Augmented Large Language Model Framework for Decision Making in Realistic Safety-Critical Driving Scenarios [1.5367554212163714]
本稿では,ケースベース推論拡張大言語モデル(CBR-LLM)フレームワークを提案する。
本手法は,ダッシュカム映像からのセマンティックシーン理解と,関連する過去の運転事例の検索を統合する。
実験により、我々のフレームワークは意思決定の正確さ、品質の正当化、および人間の専門家の行動との整合性を改善することが示された。
論文 参考訳(メタデータ) (2025-06-25T15:19:25Z) - A Framework for a Capability-driven Evaluation of Scenario Understanding for Multimodal Large Language Models in Autonomous Driving [15.24721920935653]
MLLM(Multimodal large language model)は、自動運転の可能性を秘めている。
自律運転システムへの統合は、概念実証アプリケーションにおいて有望な結果を示す。
本稿では,自律運転におけるMLLMの能力駆動評価のための総合的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-14T13:43:26Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation [7.362380225654904]
INSIGHTは、危険検出とエッジケース評価を強化するために設計された階層型視覚言語モデル(VLM)フレームワークである。
本手法は,マルチモーダルデータ融合を用いて意味表現と視覚表現を統合し,運転シナリオの正確な解釈を可能にする。
BDD100Kデータセットの実験結果は、既存のモデルよりもハザード予測の正確性と正確性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-02-01T01:43:53Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。