論文の概要: EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation
- arxiv url: http://arxiv.org/abs/2603.09465v1
- Date: Tue, 10 Mar 2026 10:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.224168
- Title: EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation
- Title(参考訳): EvoDriveVLA: 協調知覚プランニング蒸留による自律走行ビジョンランゲージ・アクションモデルの構築
- Authors: Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang,
- Abstract要約: EvoDriveVLAは、新しい協調認識計画フレームワークである。
自己認識の知覚的制約とオラクル誘導軌道最適化を統合している。
EvoDriveVLAはオープンループ評価におけるSOTA性能を実現し,クローズドループ評価における性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 56.76630488118578
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action models have shown great promise for autonomous driving, yet they suffer from degraded perception after unfreezing the visual encoder and struggle with accumulated instability in long-term planning. To address these challenges, we propose EvoDriveVLA-a novel collaborative perception-planning distillation framework that integrates self-anchored perceptual constraints and oracle-guided trajectory optimization. Specifically, self-anchored visual distillation leverages self-anchor teacher to deliver visual anchoring constraints, regularizing student representations via trajectory-guided key-region awareness. In parallel, oracle-guided trajectory distillation employs a future-aware oracle teacher with coarse-to-fine trajectory refinement and Monte Carlo dropout sampling to produce high-quality trajectory candidates, thereby selecting the optimal trajectory to guide the student's prediction. EvoDriveVLA achieves SOTA performance in open-loop evaluation and significantly enhances performance in closed-loop evaluation. Our code is available at: https://github.com/hey-cjj/EvoDriveVLA.
- Abstract(参考訳): Vision-Language-Actionモデルは、自律走行に非常に有望であるが、視覚エンコーダを解凍し、長期計画において蓄積された不安定性に苦しんだ後、認識の低下に苦しむ。
これらの課題に対処するために,自己認識型知覚制約とオラクル誘導軌道最適化を統合した新しい協調認識計画蒸留フレームワークであるEvoDriveVLAを提案する。
具体的には,自己補充型視覚蒸留は自己補聴器の教師が視覚的アンカーの制約を課し,軌道誘導型鍵領域認識を通じて学生の表現を規則化する。
並行して、オラクル誘導軌跡蒸留は、粗大な軌跡の洗練とモンテカルロのドロップアウトサンプリングによる高品質な軌跡候補を生成する将来のオラクル教師を採用し、生徒の予測を導くために最適な軌跡を選択する。
EvoDriveVLAはオープンループ評価におけるSOTA性能を実現し,クローズドループ評価における性能を大幅に向上させる。
私たちのコードは、https://github.com/hey-cjj/EvoDriveVLA.comで利用可能です。
関連論文リスト
- VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models [26.542479606920423]
VLA(Vision-Language-Action)モデルは、幅広いロボット操作タスクにおいて強力なパフォーマンスを示している。
成功にもかかわらず、大きな事前訓練されたVLAモデルをアクション空間に拡張することで、視覚-アクションのミスアライメントを誘発することができる。
VLAモデルにおける視覚的条件付けを明確に強化するトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T20:59:29Z) - DAP: A Discrete-token Autoregressive Planner for Autonomous Driving [34.32497598431514]
本稿では,BEVのセマンティクスとエゴの軌跡を共同で予測する離散的な自己回帰プランナであるDAPを紹介する。
我々は、報酬誘導改善を注入しながら、教師付き行動クローンを保存できる強化学習に基づく微調整を取り入れた。
DAPは、オープンループメトリクスの最先端のパフォーマンスを達成し、NAVSIMベンチマークで競合するクローズループ結果を提供する。
論文 参考訳(メタデータ) (2025-11-17T12:31:33Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。