論文の概要: WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.19133v1
- Date: Mon, 22 Dec 2025 08:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.670081
- Title: WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving
- Title(参考訳): WorldRFT: 自動運転のための強化ファインチューニングによる潜在世界モデル計画
- Authors: Pengxuan Yang, Ben Lu, Zhongpu Xia, Chao Han, Yinfeng Gao, Teng Zhang, Kun Zhan, XianPeng Lang, Yupeng Zheng, Qichao Zhang,
- Abstract要約: シーン表現学習を計画と整合させる計画指向の潜在世界モデルフレームワーク WorldRFT を提案する。
WorldRFTは、3次元空間認識を改善するために視覚幾何学の基礎モデルを統合し、階層的計画タスク分解を用いて表現最適化を誘導し、計画指向の駆動ポリシーを導出するために、局所的認識反復改善を利用する。
WorldRFTは、オープンループのnuScenesとクローズループのNavSimベンチマークの両方で、最先端(SOTA)のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 15.996936632437992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent World Models enhance scene representation through temporal self-supervised learning, presenting a perception annotation-free paradigm for end-to-end autonomous driving. However, the reconstruction-oriented representation learning tangles perception with planning tasks, leading to suboptimal optimization for planning. To address this challenge, we propose WorldRFT, a planning-oriented latent world model framework that aligns scene representation learning with planning via a hierarchical planning decomposition and local-aware interactive refinement mechanism, augmented by reinforcement learning fine-tuning (RFT) to enhance safety-critical policy performance. Specifically, WorldRFT integrates a vision-geometry foundation model to improve 3D spatial awareness, employs hierarchical planning task decomposition to guide representation optimization, and utilizes local-aware iterative refinement to derive a planning-oriented driving policy. Furthermore, we introduce Group Relative Policy Optimization (GRPO), which applies trajectory Gaussianization and collision-aware rewards to fine-tune the driving policy, yielding systematic improvements in safety. WorldRFT achieves state-of-the-art (SOTA) performance on both open-loop nuScenes and closed-loop NavSim benchmarks. On nuScenes, it reduces collision rates by 83% (0.30% -> 0.05%). On NavSim, using camera-only sensors input, it attains competitive performance with the LiDAR-based SOTA method DiffusionDrive (87.8 vs. 88.1 PDMS).
- Abstract(参考訳): 潜在世界モデルは、時間的自己監督学習を通じてシーン表現を強化し、エンド・ツー・エンドの自動運転のための知覚アノテーションのないパラダイムを提示する。
しかし、再構成指向の表現学習は、計画タスクと認識を混同し、計画の最適部分最適化に繋がる。
この課題に対処するため、我々は、階層的な計画分解と局所的な対話的改善機構を通じて、シーン表現学習と計画とを整合させる計画指向の潜在世界モデルフレームワーク WorldRFT を提案し、安全クリティカルな政策性能を高めるために強化学習微調整(RFT)によって強化した。
具体的には、3次元空間認識を改善するために視覚幾何学の基礎モデルを統合し、階層的計画タスク分解を用いて表現最適化を誘導し、計画指向の駆動ポリシーを導出するために、局所的認識反復改善を利用する。
さらに,運転方針の微調整に軌道ガウス化と衝突対応報酬を適用し,安全性を体系的に改善するグループ相対政策最適化(GRPO)を導入する。
WorldRFTは、オープンループのnuScenesとクローズループのNavSimベンチマークの両方で、最先端(SOTA)のパフォーマンスを達成する。
nuScenesでは、衝突速度を83%(0.30% -> 0.05%)下げる。
NavSimでは、カメラのみのセンサー入力を使用して、LiDARベースのSOTAメソッドであるDiffusionDrive (87.8 vs. 88.1 PDMS)と競合する性能を発揮する。
関連論文リスト
- ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving [23.7034061448326]
軌道計画は自動運転に不可欠であり、複雑な環境で安全かつ効率的な航法を確保する。
本稿では、強化学習を用いてマルチモーダル軌道を生成するtextbfConsistent textbfauto-textbfregressive textbfPlannerについて紹介する。
論文 参考訳(メタデータ) (2025-02-27T09:26:22Z) - Diffusion-Based Planning for Autonomous Driving with Flexible Guidance [19.204115959760788]
閉ループ計画のための新しい変圧器ベース拡散プランナを提案する。
本モデルは,予測タスクと計画タスクの協調モデリングを支援する。
様々な運転スタイルで頑健な伝達性を持つ最先端の閉ループ性能を実現する。
論文 参考訳(メタデータ) (2025-01-26T15:49:50Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。