論文の概要: Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models
- arxiv url: http://arxiv.org/abs/2603.06049v1
- Date: Fri, 06 Mar 2026 09:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.397259
- Title: Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models
- Title(参考訳): 悪は狭義の政策にある - VLAモデルを駆動する上での探究
- Authors: Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang,
- Abstract要約: 模倣学習(IL)は探索を崩壊させ、その後の強化学習の可能性を制限する傾向がある。
本稿では,2段階設計によるエクスプロイト・エクスプローラージレンマを軽減するフレームワークであるCurious-VLAを提案する。
RL(Adaptive Diversity-Aware Sampling)では,高多様性サンプルを優先し,Spanning Driving Reward(SDR)を導入する。
Navsimベンチマークでは、Curious-VLAはSoTA結果(PDMS 90.3,S 85.4)とBest-of-N PDMS 94.8を達成し、探索可能性の解放の有効性を実証した。
- 参考スコア(独自算出の注目度): 31.413394596106926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify a fundamental Narrow Policy limitation undermining the performance of autonomous VLA models, where driving Imitation Learning (IL) tends to collapse exploration and limit the potential of subsequent Reinforcement Learning (RL) stages, which often saturate prematurely due to insufficient feedback diversity. Thereby, we propose Curious-VLA, a framework that alleviates the exploit-explore dilemma through a two-stage design. During IL, we introduce a Feasible Trajectory Expansion (FTE) strategy to generate multiple physically valid trajectories and a step-wise normalized trajectory representation to adapt this diverse data. In the RL stage, we present Adaptive Diversity-Aware Sampling (ADAS) that prioritizes high-diversity samples and introduce Spanning Driving Reward (SDR) with a focal style weighting to amplify reward's value span for improving sensitivity to driving quality. On the Navsim benchmark, Curious-VLA achieves SoTA results (PDMS 90.3, EPDMS 85.4) and a Best-of-N PDMS of 94.8, demonstrating its effectiveness in unlocking the exploratory potential of VLA models. Code: https://github.com/Mashiroln/curious_vla.git.
- Abstract(参考訳): 我々は,自律型VLAモデルの性能を損なう基本的ナローポリシーの限界を特定し,Imitation Learning(IL)の運転は探索を崩壊させ,その後の強化学習(RL)段階の可能性を制限する傾向にある。
そこで我々は,2段階設計によるエクスプロイト・エクスプローラージレンマを軽減するフレームワークであるCurious-VLAを提案する。
IL中に、複数の物理的に有効な軌道を生成するためのFasible Trajectory Expansion(FTE)戦略と、この多様なデータに適応するためのステップワイド正規化トラジェクトリ表現を導入する。
RLの段階では、高多様性サンプルを優先するAdaptive Diversity-Aware Sampling (ADAS)を導入し、フォーカススタイル重み付けによるSpanning Driving Reward (SDR)を導入し、報酬の価値を増幅し、運転品質に対する感度を向上させる。
Navsimベンチマークでは、Curious-VLA は SoTA の結果 (PDMS 90.3, EPDMS 85.4) と 94.8 のベスト・オブ・N PDMS を達成している。
コード:https://github.com/Mashiroln/curious_vla.git
関連論文リスト
- Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures [14.313346858887286]
自律走行のためのVLA(Vision-Language-Action)モデルは、強化学習(Reinforcement Learning、RL)最適化時にしばしばパフォーマンス高原に到達する。
この停滞は、以前のスーパービジョン・ファインチューニング(SFT)によって制約された探査能力から生じる。
構造化された診断フィードバックでRLを増強するフレームワークであるELF-VLA(Explicit Learning from Failures)を提案する。
論文 参考訳(メタデータ) (2026-03-01T11:41:22Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model [19.141499640543138]
IRL-VLA は textbfInverse textbfReinforcement textbfLearning reward world model による新しいループ強化学習である。
本稿では, 自己構築型VLAアプローチを用いて, textbfInverse textbfReinforcement textbfLearning reward world model を用いた新しいループ強化学習であるIRL-VLAを紹介する。
論文 参考訳(メタデータ) (2025-08-07T06:30:05Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。