論文の概要: Judge, Then Drive: A Critic-Centric Vision Language Action Framework for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.27366v1
- Date: Thu, 30 Apr 2026 03:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.901467
- Title: Judge, Then Drive: A Critic-Centric Vision Language Action Framework for Autonomous Driving
- Title(参考訳): 裁判官, そしてドライブ: 自動運転のための批判中心の視覚言語アクションフレームワーク
- Authors: Lijin Yang, Jianing Huang, Zhongzhan Huang, Shu Liu, Hao Yang,
- Abstract要約: 本稿では,視覚言語行動(VLA)モデルの役割を行動から判断まで拡張するCryticVLAを提案する。
このプロセスを支援するために、我々は1290万の注釈付き軌跡からなる大規模な合成データセットを構築した。
クローズドループ実験では、CriticVLAは最先端のベースラインを大幅に超え、73.33%の成功率を獲得し、挑戦的なシナリオで約30%改善した。
- 参考スコア(独自算出の注目度): 24.638169016331286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision language action (VLA) models have shown remarkable potential for autonomous driving by directly mapping multimodal inputs to control signals. However, previous VLA-based methods have not explicitly exploited the critic capability of VLAs to refine driving decisions, even though such capability has been well demonstrated in other LLM-based domains, thereby limiting their performance in complex closed-loop scenarios. In this work, we present a theoretically inspired two-stage framework, CriticVLA, which extends the role of VLAs from acting to judging. CriticVLA first generates a rough trajectory and then refines it through multimodal evaluation and single-step optimization guided by a VLA-based critic, yielding higher-quality driving behaviors. To support this process, we construct a large-scale synthetic dataset of 12.9 million annotated trajectories covering diverse driving scenarios, which enhances the critic's reasoning and refinement abilities. Extensive closed-loop experiments on the Bench2Drive benchmark show that CriticVLA significantly surpasses state-of-the-art baselines, achieving a 73.33% total success rate and delivering about 30% improvement in challenging scenarios.
- Abstract(参考訳): 視覚言語行動モデル(VLA)の最近の進歩は、マルチモーダル入力を直接制御信号にマッピングすることで、自律運転に顕著な可能性を示している。
しかしながら、従来のVLAベースの手法は、他のLLMベースのドメインでよく実証されているにもかかわらず、駆動決定を洗練させるためにVLAの批判能力を明示的に活用していないため、複雑なクローズドループシナリオでは性能が制限される。
本稿では,VLAの役割を行動から判断まで拡張する,理論的にインスパイアされた2段階のフレームワークであるCryticVLAを提案する。
CriticVLAはまず粗い軌道を生成し、その後、VLAベースの批評家が導いたマルチモーダル評価とシングルステップ最適化によって改善し、高品質な運転行動をもたらす。
このプロセスを支援するために、様々な運転シナリオをカバーする129万の注釈付き軌跡からなる大規模な合成データセットを構築し、批評家の推論と洗練能力を高める。
Bench2Driveベンチマークの大規模なクローズループ実験は、CriticVLAが最先端のベースラインを大幅に上回り、73.33%の成功率を獲得し、挑戦的なシナリオで約30%改善したことを示している。
関連論文リスト
- SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery Samples for Vision-Language-Action Model [16.077387927185917]
VLA(Vision-Language-Action)モデルは、世界知識と推論能力を活用するための有望な自動運転パラダイムを提供する。
既存のVLAモデルは、自動回帰生成フレームワークを使用してアクション生成の高レイテンシに悩まされることが多い。
本稿では、自動回帰推論とフローマッチングアクションエキスパートを統合した、新しいエンドツーエンド自動運転フレームワークであるSpanVLAを提案する。
論文 参考訳(メタデータ) (2026-04-21T17:34:19Z) - Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures [14.313346858887286]
自律走行のためのVLA(Vision-Language-Action)モデルは、強化学習(Reinforcement Learning、RL)最適化時にしばしばパフォーマンス高原に到達する。
この停滞は、以前のスーパービジョン・ファインチューニング(SFT)によって制約された探査能力から生じる。
構造化された診断フィードバックでRLを増強するフレームワークであるELF-VLA(Explicit Learning from Failures)を提案する。
論文 参考訳(メタデータ) (2026-03-01T11:41:22Z) - Counterfactual VLA: Self-Reflective Vision-Language-Action Model with Adaptive Reasoning [71.19675094463834]
この作業では、モデルが実行前に計画されたアクションを推論し、修正することを可能にする、自己修正型のVLAフレームワークである、Counterfactual VLAを導入している。
CF-VLAはまず、駆動意図を要約した時間分割メタアクションを生成し、その後、メタアクションと視覚コンテキストの両方で条件付けられた反実的推論を実行する。
大規模運転データセットの実験では、CF-VLAは軌道精度を最大17.6%向上し、安全基準を20.5%向上し、適応的思考を示す。
論文 参考訳(メタデータ) (2025-12-30T19:04:17Z) - COVLM-RL: Critical Object-Oriented Reasoning for Autonomous Driving Using VLM-Guided Reinforcement Learning [55.83415345423854]
批判的オブジェクト指向(CO)推論と強化学習(RL)を統合した新しいエンドツーエンド駆動フレームワークCOVLM-RLを提案する。
CARLAシミュレータで行った実験により、COVLM-RLはトレーニング運転環境における成功率を30%向上することが示された。
論文 参考訳(メタデータ) (2025-12-10T06:18:16Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - VLDrive: Vision-Augmented Lightweight MLLMs for Efficient Language-grounded Autonomous Driving [90.21844353859454]
視覚コンポーネントを拡張した軽量MLLMアーキテクチャを特徴とする新しいアプローチを提案する。
VLDriveは、パラメータを81%削減しながら最先端の駆動性能を達成する。
論文 参考訳(メタデータ) (2025-11-09T07:14:53Z) - CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine [73.74077186298523]
CoReVLAは、自動運転のための継続的学習フレームワークである。
データコレクションとビヘイビアリファインメントの2段階プロセスを通じて、ロングテールシナリオのパフォーマンスを改善する。
CoReVLAは72.18のドライビングスコア(DS)と50%の成功率(SR)を達成し、7.96DSの最先端手法と15%SRの長期的安全クリティカルシナリオで性能を向上する。
論文 参考訳(メタデータ) (2025-09-19T13:25:56Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。