論文の概要: DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving
- arxiv url: http://arxiv.org/abs/2602.14577v1
- Date: Mon, 16 Feb 2026 09:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.346335
- Title: DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving
- Title(参考訳): DriveFine:精密でロバストな運転のための改良型マスク付き拡散VLA
- Authors: Chenxu Dang, Sining Ang, Yongkang Li, Haochen Tian, Jie Wang, Guang Li, Hangjun Ye, Jie Ma, Long Chen, Yan Wang,
- Abstract要約: 拡散に基づくプランナーは、モダリティアライメントの困難、訓練効率の低下、限定的な一般化に悩まされる。
トークンベースのプランナーは累積因果ミスと不可逆復号に悩まされている。
フレキシブルデコーディングと自己補正機能を組み合わせたマスク付き拡散VLAモデルであるDriveFineを提案する。
- 参考スコア(独自算出の注目度): 14.800134964871875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models for autonomous driving increasingly adopt generative planners trained with imitation learning followed by reinforcement learning. Diffusion-based planners suffer from modality alignment difficulties, low training efficiency, and limited generalization. Token-based planners are plagued by cumulative causal errors and irreversible decoding. In summary, the two dominant paradigms exhibit complementary strengths and weaknesses. In this paper, we propose DriveFine, a masked diffusion VLA model that combines flexible decoding with self-correction capabilities. In particular, we design a novel plug-and-play block-MoE, which seamlessly injects a refinement expert on top of the generation expert. By enabling explicit expert selection during inference and gradient blocking during training, the two experts are fully decoupled, preserving the foundational capabilities and generic patterns of the pretrained weights, which highlights the flexibility and extensibility of the block-MoE design. Furthermore, we design a hybrid reinforcement learning strategy that encourages effective exploration of refinement expert while maintaining training stability. Extensive experiments on NAVSIM v1, v2, and Navhard benchmarks demonstrate that DriveFine exhibits strong efficacy and robustness. The code will be released at https://github.com/MSunDYY/DriveFine.
- Abstract(参考訳): 自律運転のためのビジョン・ランゲージ・アクション(VLA)モデルは、模倣学習と強化学習によって訓練された生成プランナーを採用する傾向にある。
拡散に基づくプランナーは、モダリティアライメントの困難、訓練効率の低下、限定的な一般化に悩まされる。
トークンベースのプランナーは累積因果ミスと不可逆復号に悩まされている。
要約すると、2つの支配的なパラダイムは相補的な強みと弱みを示している。
本稿では,フレキシブルデコーディングと自己補正機能を組み合わせたマスク付き拡散VLAモデルであるDriveFineを提案する。
特に,新規なプラグアンドプレイブロック-MoEを設計し,その上に改良の専門家をシームレスに注入する。
トレーニング中の推論と勾配のブロッキングにおいて、明示的な専門家の選択を可能にすることによって、2人の専門家は完全に分離され、事前訓練された重みの基本的な能力と一般的なパターンが保たれ、ブロック-MoE設計の柔軟性と拡張性が強調される。
さらに,訓練安定性を維持しつつ,改良専門家の効果的な探索を支援するハイブリッド強化学習戦略を設計する。
NAVSIM v1, v2, Navhardベンチマークに関する大規模な実験は、DriveFineが強い有効性と堅牢性を示すことを示した。
コードはhttps://github.com/MSunDYY/DriveFine.comで公開される。
関連論文リスト
- MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning [51.20229133553804]
自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存している
オンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。
大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。
軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
論文 参考訳(メタデータ) (2025-12-15T18:31:32Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation [20.106116218594266]
DIVERは、強化学習と拡散ベースの生成を統合するエンドツーエンドの自動運転フレームワークである。
また,DIVERは軌道の多様性を著しく改善し,模倣学習に固有のモード崩壊問題に効果的に対処することを示した。
論文 参考訳(メタデータ) (2025-07-05T14:19:19Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better [58.559985503802054]
視覚言語アクション(VLA)モデルは、エンド・ツー・エンドの学習とWebスケール視覚言語モデル(VLM)トレーニングからの意味知識の伝達を組み合わせたモデルである。
最も強力なVLMは数十億から数百億のパラメータを持ち、リアルタイム推論の障害となる。
近年のVLAモデルは、アクションエキスパートや連続出力ヘッドのような効率的な連続制御のための特別なモジュールを使用している。
このような専門家を内面的に含むと、トレーニング速度と知識伝達の両方に悪影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-29T17:40:09Z) - Learning Soft Driving Constraints from Vectorized Scene Embeddings while Imitating Expert Trajectories [16.666811573117613]
運動計画の第一の目的は、車両の安全で効率的な軌道を生成することである。
伝統的に、運動計画モデルは、人間の専門家の行動を模倣するために模倣学習を用いて訓練される。
本研究では,制約学習を模倣学習に統合する手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T18:29:28Z) - Boosting Offline Reinforcement Learning for Autonomous Driving with
Hierarchical Latent Skills [37.31853034449015]
本稿では、長距離車両計画の課題を克服するために、オフラインRLを強化するスキルベースのフレームワークを提案する。
具体的には、オフラインデモからスキルを学ぶための変分オートエンコーダ(VAE)を設計する。
一般的なVAEの後方崩壊を緩和するため、2分岐シーケンスエンコーダを導入し、離散的なオプションと複雑な駆動スキルの連続的な変化をキャプチャする。
論文 参考訳(メタデータ) (2023-09-24T11:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。