論文の概要: WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.11872v1
- Date: Sat, 06 Dec 2025 10:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:55.981186
- Title: WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving
- Title(参考訳): WAM-Diff: 自律運転のためのMoEとオンライン強化学習を備えた仮設拡散VLAフレームワーク
- Authors: Mingwang Xu, Jiahao Cui, Feipeng Cai, Hanlin Shang, Zhihao Zhu, Shan Luan, Yifang Xu, Neng Zhang, Yaoyi Li, Jia Cai, Siyu Zhu,
- Abstract要約: WAM-Diffは、マスク拡散を利用して、将来のエゴ軌道を表す離散シーケンスを洗練するフレームワークである。
NAVSIM-v1では91.0PDMS, NAVSIM-v2では89.7Sを達成し, 自律運転におけるマスク拡散の有効性を示した。
- 参考スコア(独自算出の注目度): 9.719456684859606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving systems based on vision-language-action (VLA) models integrate multimodal sensor inputs and language instructions to generate planning and control signals. While autoregressive large language models and continuous diffusion policies are prevalent, the potential of discrete masked diffusion for trajectory generation remains largely unexplored. This paper presents WAM-Diff, a VLA framework that employs masked diffusion to iteratively refine a discrete sequence representing future ego-trajectories. Our approach features three key innovations: a systematic adaptation of masked diffusion for autonomous driving that supports flexible, non-causal decoding orders; scalable model capacity via a sparse MoE architecture trained jointly on motion prediction and driving-oriented visual question answering (VQA); and online reinforcement learning using Group Sequence Policy Optimization (GSPO) to optimize sequence-level driving rewards. Remarkably, our model achieves 91.0 PDMS on NAVSIM-v1 and 89.7 EPDMS on NAVSIM-v2, demonstrating the effectiveness of masked diffusion for autonomous driving. The approach provides a promising alternative to autoregressive and diffusion-based policies, supporting scenario-aware decoding strategies for trajectory generation. The code for this paper will be released publicly at: https://github.com/fudan-generative-vision/WAM-Diff
- Abstract(参考訳): ビジョン・ランゲージ・アクション(VLA)モデルに基づくエンドツーエンドの自律運転システムは、多モードセンサ入力と言語命令を統合して、計画と制御信号を生成する。
自己回帰的大言語モデルや連続拡散政策が一般的であるが、軌道生成のための離散的マスク付き拡散の可能性はほとんど未解明のままである。
本稿では,将来のエゴ軌道を表す離散列を反復的に洗練するために,マスク拡散を利用したVLAフレームワークであるWAM-Diffを提案する。
提案手法は, フレキシブルで非因果デコード順序をサポートする自律運転用マスク拡散の体系的適応, 動き予測と運転指向視覚質問応答(VQA)を併用した疎MOEアーキテクチャによるスケーラブルなモデルキャパシティ, グループシーケンスポリシー最適化(GSPO)を用いたオンライン強化学習の3つの重要なイノベーションを特徴とする。
また,NAVSIM-v1では91.0 PDMS,NAVSIM-v2では89.7 PDMSを達成し,自律運転におけるマスク拡散の有効性を示した。
このアプローチは、自動回帰および拡散ベースのポリシーに代わる有望な代替手段を提供し、軌道生成のためのシナリオ対応のデコーディング戦略をサポートする。
この論文のコードは、https://github.com/fudan-generative-vision/WAM-Diffで公開されます。
関連論文リスト
- DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving [15.457670964093156]
VLM(Vision-Language Model)による新しいハイブリッドスパース距離拡散政策を提案する。
提案手法は,現実的,反応的な合成シナリオを含む自律的グランドチャレンジ2025において,優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-26T00:49:35Z) - TransDiffuser: Diverse Trajectory Generation with Decorrelated Multi-modal Representation for End-to-end Autonomous Driving [20.679370777762987]
エンコーダデコーダに基づく生成軌道計画モデルであるTransDiffuserを提案する。
単純なマルチモーダル表現デコレーションのデノナイジング過程におけるデコレーション最適化機構を利用する。
TransDiffuserは、クローズドループ計画指向ベンチマークNAVSIMで94.85のPDMSを達成する。
論文 参考訳(メタデータ) (2025-05-14T12:10:41Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。