論文の概要: RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
- arxiv url: http://arxiv.org/abs/2604.15308v1
- Date: Thu, 16 Apr 2026 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.050004
- Title: RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
- Title(参考訳): RAD-2: ジェネレータ・ディスクリミネータ・フレームワークにおける強化学習のスケーリング
- Authors: Hao Gao, Shaoyu Chen, Yifan Zhu, Yuehao Song, Wenyu Liu, Qian Zhang, Xinggang Wang,
- Abstract要約: RAD-2はクローズドループ計画のための統一されたジェネレータ・ディスクリミネーターフレームワークである。
様々な軌道候補を生成する一方、RL最適化判別器は、これらの候補を長期的な運転品質に応じて再現する。
強い拡散ベースのプランナーに比べて衝突速度を56%削減する。
- 参考スコア(独自算出の注目度): 49.531001563853984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.
- Abstract(参考訳): 高レベルの自律運転には、閉ループ相互作用において頑健なまま、マルチモーダルな将来の不確実性をモデル化できる運動プランナーが必要である。
拡散型プランナーは複雑な軌跡分布のモデル化に有効であるが、しばしば確率的不安定さや、模倣学習で純粋に訓練された際の正負のフィードバックの欠如に悩まされる。
これらの問題に対処するため、我々はクローズドループ計画のための統一型ジェネレータ・ディスクリミネータフレームワークRAD-2を提案する。
具体的には、拡散型ジェネレータを使用して様々な軌道候補を生成する一方、RL最適化判別器は、これらの候補を長期的な運転品質に応じて再評価する。
この分離された設計は、全高次元軌道空間にスパーススカラー報酬を直接適用することを避け、最適化安定性を向上させる。
強化学習をさらに強化するため、クレジット割り当て問題を緩和するために時間的コヒーレンスを活用した時間的一貫性を持つグループ相対的政策最適化を導入する。
さらに, 閉ループフィードバックを構造化された縦方向の最適化信号に変換し, 高逆軌道多様体へ徐々に変換するOn-policy Generator Optimizationを提案する。
BEV-Warpは,Bird's-Eye View機能空間に直接クローズループ評価を行う高スループットシミュレーション環境である。
RAD-2は強い拡散ベースのプランナーに比べて衝突速度を56%削減する。
現実世界の展開は、複雑な都市交通における認識された安全性と運転のスムーズさをさらに向上させる。
関連論文リスト
- HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - Amortizing Trajectory Diffusion with Keyed Drift Fields [2.5352713493505785]
キード・ドリフト・ポリシーズ (Keyed Drifting Policies) は、ドリフトフィールドの目標で訓練された1ステップの軌道生成装置である。
生成されたトラジェクトリを条件マッチングされたデータセットウィンドウに反映する。
1ステップの推論で高い性能を達成し、拡散サンプリングよりも計画遅延を大幅に低減する。
論文 参考訳(メタデータ) (2026-03-14T17:56:15Z) - VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments [19.811711277536187]
マルチロボット探索は通常、フロンティア割り当てをローカルナビゲーションから切り離す。
VORL-EXPLOREは,この制約に対処するハイブリッド学習・計画フレームワークである。
また、グローバルA*ガイダンスとリアクティブ強化学習ポリシーとの間のリスク対応適応的仲裁機構も推進している。
論文 参考訳(メタデータ) (2026-03-09T05:20:33Z) - PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning [17.21182051618103]
拡散に基づくプランナーは、自動運転における人間のような軌道生成の有望なアプローチとして現れてきた。
最近の研究は拡散プランナーの堅牢性を高めるために強化微調整を取り入れている。
拡散型プランナのための試料効率強化微調整フレームワークPlannerRFTを提案する。
論文 参考訳(メタデータ) (2026-01-19T09:56:05Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving [17.57364638932072]
EvaDriveは、自動運転のための新しい強化学習フレームワークである。
ヒューマンライクな反復的意思決定のためのクローズドループ対向フレームワークを提供する。
NAVSIMとBench2Driveベンチマークの大規模な実験では、SOTAのパフォーマンスが示されている。
論文 参考訳(メタデータ) (2025-08-05T11:26:28Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。