論文の概要: VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.08133v2
- Date: Tue, 12 May 2026 14:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.730567
- Title: VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving
- Title(参考訳): VLADriver-RAG: 自律運転のための検索拡張視線処理モデル
- Authors: Rui Zhao, Haofeng Hu, Zhenhai Gao, Jiaqiao Liu, Gao Fei,
- Abstract要約: 歴史的知識を明示的かつ構造的に認識するフレームワークである textbfVLA-DriverRAG を提案する。
感覚入力をtextitVisual-to-Scenario 機構で意味グラフに抽象化し,視覚ノイズを効果的にフィルタリングする。
Bench2Driveベンチマークの実験は、新しい最先端技術を確立し、ドライビングスコア89.12を達成した。
- 参考スコア(独自算出の注目度): 8.228888952282917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a promising paradigm for end-to-end autonomous driving, yet their reliance on implicit parametric knowledge limits generalization in long-tail scenarios. While Retrieval-Augmented Generation (RAG) offers a solution by accessing external expert priors, standard visual retrieval suffers from high latency and semantic ambiguity. To address these challenges, we propose \textbf{VLADriver-RAG}, a framework that grounds planning in explicit, structure-aware historical knowledge. Specifically, we abstract sensory inputs into spatiotemporal semantic graphs via a \textit{Visual-to-Scenario} mechanism, effectively filtering visual noise. To ensure retrieval relevance, we employ a \textit{Scenario-Aligned Embedding Model} that utilizes Graph-DTW metric alignment to prioritize intrinsic topological consistency over superficial visual similarity. These retrieved priors are then fused within a query-based VLA backbone to synthesize precise, disentangled trajectories. Extensive experiments on the Bench2Drive benchmark establish a new state-of-the-art, achieving a Driving Score of 89.12.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転において有望なパラダイムとして登場したが、暗黙のパラメトリック知識に頼っているため、ロングテールシナリオでの一般化が期待できる。
Retrieval-Augmented Generation (RAG)は、外部の専門家の事前情報にアクセスすることでソリューションを提供するが、標準的なビジュアル検索は、高いレイテンシとセマンティックな曖昧さに悩まされている。
これらの課題に対処するために,明示的かつ構造を意識した歴史的知識に基づく計画の基盤となるフレームワークである \textbf{VLADriver-RAG} を提案する。
具体的には、視覚ノイズを効果的にフィルタリングする‘textit{Visual-to-Scenario} メカニズムにより、知覚入力を時空間意味グラフに抽象化する。
検索の関連性を確保するために,グラフ-DTW測度アライメントを用いた‘textit{Scenario-Aligned Embedding Model} を用いて,表面的な視覚的類似性よりも内在的トポロジ的一貫性を優先する。
これらの抽出された先行データは、クエリベースのVLAバックボーン内で融合され、正確で不整合な軌跡を合成する。
Bench2Driveベンチマークの大規模な実験は、新しい最先端技術を確立し、ドライビングスコア89.12を達成している。
関連論文リスト
- From Scene to Object: Text-Guided Dual-Gaze Prediction [17.32439183328327]
解釈可能なドライバーの注意予測は、人間のような自動運転にとって不可欠である。
既存のデータセットは、微粒なオブジェクトレベルのアノテーションではなく、シーンレベルのグローバルな視線のみを提供する。
本稿では,データ構築からモデルアーキテクチャへの完全なパラダイムを確立するための,新しいデュアルブランチの視線予測フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-22T05:11:59Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - FSDAM: Few-Shot Driving Attention Modeling via Vision-Language Coupling [5.609178055761294]
本稿では,100の注釈付き例で共同注意予測とキャプション生成を実現するフレームワークであるFSDAMを提案する。
FSDAMは、注意予測における競合性能を達成し、コヒーレントでコンテキストを考慮した説明を生成する。
本研究は,効果的な注意条件付き生成が限定的な監督によって達成可能であることを示し,説明可能な運転注意システムの実用的展開の可能性を示した。
論文 参考訳(メタデータ) (2025-11-16T17:50:30Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - DriveCritic: Towards Context-Aware, Human-Aligned Evaluation for Autonomous Driving with Vision-Language Models [24.168614747778538]
DriveCriticは、2つの重要なコントリビューションを特徴とする新しいフレームワークです。
データセットは、コンテキストが正しい判断に不可欠である、困難なシナリオのキュレートされたコレクションである。
DriveCriticモデルは、視覚的コンテキストとシンボル的コンテキストを統合することで、軌跡ペア間の調整を学ぶ。
論文 参考訳(メタデータ) (2025-10-15T03:00:38Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [19.81442567260658]
本稿では,VLAを画像で考えることのできる視覚的テンポラルTフレームワークを提案する。
nuScenes と NAVSIM では、FSDrive は精度を改善し、衝突を減らす。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。