Fugu-MT 論文翻訳(概要): ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

論文の概要: ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

arxiv url: http://arxiv.org/abs/2605.04647v2
Date: Tue, 12 May 2026 01:59:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 15:25:41.400883
Title: ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving
Title（参考訳）: ReflectDrive-2:離散拡散駆動のための強化学習型自己編集
Authors: Huimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan,
Abstract要約: 本稿では,自律走行のための個別のアクションエキスパートを備えたマスク付き離散拡散プランナであるReflectDrive-2を紹介する。この離散トークン空間は、インプレース・トラジェクトリ・リビジョンを可能にする。 AutoEditは、補助的な改善ネットワークを必要とせずに、同じモデルを使用して選択されたトークンを書き換える。また、共有KVの再利用、ステップデコードの変更、デバイス上でのアンマッシングを組み合わせ、効率的なリフレクティブデコードスタックを設計しました。
参考スコア（独自算出の注目度）: 21.83244155061793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce ReflectDrive-2, a masked discrete diffusion planner with separate action expert for autonomous driving that represents plans as discrete trajectory tokens and generates them through parallel masked decoding. This discrete token space enables in-place trajectory revision: AutoEdit rewrites selected tokens using the same model, without requiring an auxiliary refinement network. To train this capability, we use a two-stage procedure. First, we construct structure-aware perturbations of expert trajectories along longitudinal progress and lateral heading directions and supervise the model to recover the original expert trajectory. We then fine-tune the full decision--draft--reflect rollout with reinforcement learning (RL), assigning terminal driving reward to the final post-edit trajectory and propagating policy-gradient credit through full-rollout transitions. Full-rollout RL proves crucial for coupling drafting and editing: under supervised training alone, inference-time AutoEdit improves PDMS by at most $0.3$, whereas RL increases its gain to $1.9$. We also co-design an efficient reflective decoding stack for the decision--draft--reflect pipeline, combining shared-prefix KV reuse, Alternating Step Decode, and fused on-device unmasking. On NAVSIM, ReflectDrive-2 achieves $91.0$ PDMS with camera-only input and $94.8$ PDMS in a best-of-6 oracle setting, while running at $31.8$ ms average latency on NVIDIA Thor.
Abstract（参考訳）: マスク付き離散拡散プランナであるReflectDrive-2は、自律走行のための個別アクションエキスパートであり、プランを離散軌道トークンとして表現し、パラレルマスクデコーディングにより生成する。この離散トークン空間は、インプレース・トラジェクトリ・リビジョンを可能にする。 AutoEditは、補助的な改善ネットワークを必要とせずに、同じモデルを使用して選択されたトークンを書き換える。この能力を訓練するために、私たちは2段階の手順を使用します。まず, 縦方向および横方向に沿って, 専門家軌道の構造を意識した摂動を構築し, モデルの監督を行い, 元の専門家軌道を復元する。次に、強化学習(RL)による完全な意思決定-ドラフト-リフレクションのロールアウトを微調整し、最終編集後の軌道に端末駆動報酬を割り当て、フルロールアウトの移行を通じて政策段階的な信用を伝播する。教師付きトレーニング単独では、推論タイムのAutoEditはPDMSを少なくとも0.3ドル改善し、RLは1.9ドルに上昇する。我々はまた、共有プリフィックスKV再利用、ステップデコードの変更、デバイス上のアンマッシングを組み合わせた、意思決定-ドラフト-リフレクトパイプラインのための効率的なリフレクティブデコードスタックを共同設計する。 NAVSIMでは、ReflectDrive-2はカメラのみの入力で91.0$ PDMS、最高の6つのオラクル設定で94.8$ PDMSを達成し、NVIDIA Thorでは平均31.8$ msの遅延で動作する。

関連論文リスト

OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2026-04-20T07:50:00Z)
HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2026-04-04T04:12:47Z)
Bridging Large-Model Reasoning and Real-Time Control via Agentic Fast-Slow Planning [42.15812524999639]
Agentic Fast-Slow Planning(エージェント・ファスト・スロー・プランニング)は、知覚、推論、計画、そして自然の時間スケールをまたいだ制御を分離する階層的なフレームワークである。エージェント高速スロープランニングは摂動下での堅牢性を向上し、純粋なMPCおよびA*誘導MPCベースラインと比較して、横方向偏差を最大45%減らし、完了時間を12%以上短縮することを示した。
論文参考訳（メタデータ） (2026-04-02T06:34:29Z)
ReinDriveGen: Reinforcement Post-Training for Out-of-Distribution Driving Scene Generation [61.64162666162948]
ReinDriveGenは動的駆動シーンのフルコントロールを可能にするフレームワークである。提案手法は,マルチフレームLiDARデータから動的3Dポイントクラウドシーンを構築する。提案手法では,映像拡散モデルを用いてリアルな運転映像を合成する2次元条件画像に編集シーンを描画する。
論文参考訳（メタデータ） (2026-04-01T16:48:20Z)
PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning [23.599241673009956]
Pseudo-simulation-based RL method for closed-loop end-to-end autonomous driving, PerlAD。オフラインデータセットに基づいて、PerlADはベクトル空間で動作する擬似シミュレーションを構築し、効率的でレンダリング不要なトライアルとエラーのトレーニングを可能にする。 PerlADはBench2Driveベンチマークで最先端のパフォーマンスを達成し、以前のE2E RL法を10.29%上回った。
論文参考訳（メタデータ） (2026-03-16T07:09:07Z)
DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文参考訳（メタデータ） (2025-12-08T17:29:52Z)
AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文参考訳（メタデータ） (2025-09-02T04:32:24Z)
VERDI: VLM-Embedded Reasoning for Autonomous Driving [33.66777025242027]
自律走行(VERDI)のためのVLM埋め込み推論を提案する。 VERDIはVision-Language Modelsの推論プロセスと常識知識をADスタックに蒸留する。 VERDIは、$ell_2$ distanceで10%の推論を埋め込まない既存のe2eメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-21T18:24:36Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)
FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。 FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文参考訳（メタデータ） (2020-08-06T08:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。