論文の概要: SteerVLA: Steering Vision-Language-Action Models in Long-Tail Driving Scenarios
- arxiv url: http://arxiv.org/abs/2602.08440v2
- Date: Fri, 13 Feb 2026 08:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.278353
- Title: SteerVLA: Steering Vision-Language-Action Models in Long-Tail Driving Scenarios
- Title(参考訳): SteerVLA:長距離運転シナリオにおけるステアリング・ビジョン・ランゲージ・アクションモデル
- Authors: Tian Gao, Celine Tan, Catherine Glossop, Timothy Gao, Jiankai Sun, Kyle Stachowicz, Shirley Wu, Oier Mees, Dorsa Sadigh, Sergey Levine, Chelsea Finn,
- Abstract要約: 自律運転における基本的な課題は、ロングテールイベントに対する高レベルなセマンティック推論と、ロバストな運転のための低レベルでリアクティブな制御の統合である。
本稿では,視覚-言語-行動駆動ポリシーを操る細粒度言語命令を生成するSteerVLAを提案する。
我々は、SteerVLAを挑戦的なクローズドループベンチマークで評価し、運転スコア全体の4.77ポイント、ロングテールサブセットの8.04ポイントで最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 104.10555123175055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental challenge in autonomous driving is the integration of high-level, semantic reasoning for long-tail events with low-level, reactive control for robust driving. While large vision-language models (VLMs) trained on web-scale data offer powerful common-sense reasoning, they lack the grounded experience necessary for safe vehicle control. We posit that an effective autonomous agent should leverage the world knowledge of VLMs to guide a steerable driving policy toward robust control in driving scenarios. To this end, we propose SteerVLA, which leverages the reasoning capabilities of VLMs to produce fine-grained language instructions that steer a vision-language-action (VLA) driving policy. Key to our method is this rich language interface between the high-level VLM and low-level VLA, which allows the high-level policy to more effectively ground its reasoning in the control outputs of the low-level policy. To provide fine-grained language supervision aligned with vehicle control, we leverage a VLM to augment existing driving data with detailed language annotations, which we find to be essential for effective reasoning and steerability. We evaluate SteerVLA on a challenging closed-loop benchmark, where it outperforms state-of-the-art methods by 4.77 points in overall driving score and by 8.04 points on a long-tail subset. The project website is available at: https://steervla.github.io/.
- Abstract(参考訳): 自律運転における基本的な課題は、ロングテールイベントに対する高レベルなセマンティック推論と、ロバストな運転のための低レベルでリアクティブな制御の統合である。
Webスケールのデータに基づいて訓練された大規模な視覚言語モデル(VLM)は強力な常識推論を提供するが、安全な車両制御に必要な基礎的な経験は欠如している。
実効的な自律エージェントは、VLMの世界的知識を活用して、運転シナリオの堅牢な制御に向けて、ステアブルな運転ポリシーを導出すべきであると仮定する。
そこで本研究では,VLMの推論機能を活用して,視覚言語アクション(VLA)駆動ポリシを操る詳細な言語命令を生成するSteerVLAを提案する。
提案手法の鍵となるのは,高レベルなVLMと低レベルなVLAとの間のリッチ言語インタフェースである。
車両制御に整合した粒度の細かい言語管理を実現するため,VLMを利用して詳細な言語アノテーションで既存の運転データを拡張し,効果的な推論と操縦性に欠かせないものと考えられる。
我々は、SteerVLAを挑戦的なクローズドループベンチマークで評価し、運転スコア全体の4.77ポイント、ロングテールサブセットの8.04ポイントで最先端の手法より優れています。
プロジェクトのWebサイトは以下の通りである。
関連論文リスト
- Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control [46.169163284648384]
Steerable Policies: サブタスクやモーション,接地したピクセル座標など,さまざまな抽象化レベルで,リッチな合成コマンドに基づいてトレーニングされたVLA。
この利点は、学習した高レベルな具体的推論器と既製のVLMの両方を使って、コンテキスト内学習を通じてコマンドの抽象化を推論することで実証する。
論文 参考訳(メタデータ) (2026-02-13T18:57:56Z) - A Survey on Vision-Language-Action Models for Autonomous Driving [26.407082158880204]
VLA(Vision-Language-Action)パラダイムは、視覚知覚、自然言語理解、制御を単一のポリシーに統合する。
自動運転車の研究者たちは、これらの方法を車の領域に積極的に適応させている。
この調査は、VLA for Autonomous Drivingの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-06-30T16:50:02Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [0.4371652524921044]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。