論文の概要: PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.12901v1
- Date: Mon, 19 Jan 2026 09:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.839761
- Title: PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning
- Title(参考訳): PlannerRFT: クローズドループとサンプル効率の良いファインチューニングによる拡散プランナの強化
- Authors: Hongchen Li, Tianyu Li, Jiazhi Yang, Haochen Tian, Caojun Wang, Lei Shi, Mingyang Shang, Zengrong Lin, Gaoqiang Wu, Zhihui Hao, Xianpeng Lang, Jia Hu, Hongyang Li,
- Abstract要約: 拡散に基づくプランナーは、自動運転における人間のような軌道生成の有望なアプローチとして現れてきた。
最近の研究は拡散プランナーの堅牢性を高めるために強化微調整を取り入れている。
拡散型プランナのための試料効率強化微調整フレームワークPlannerRFTを提案する。
- 参考スコア(独自算出の注目度): 17.21182051618103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion-based planners have emerged as a promising approach for human-like trajectory generation in autonomous driving. Recent works incorporate reinforcement fine-tuning to enhance the robustness of diffusion planners through reward-oriented optimization in a generation-evaluation loop. However, they struggle to generate multi-modal, scenario-adaptive trajectories, hindering the exploitation efficiency of informative rewards during fine-tuning. To resolve this, we propose PlannerRFT, a sample-efficient reinforcement fine-tuning framework for diffusion-based planners. PlannerRFT adopts a dual-branch optimization that simultaneously refines the trajectory distribution and adaptively guides the denoising process toward more promising exploration, without altering the original inference pipeline. To support parallel learning at scale, we develop nuMax, an optimized simulator that achieves 10 times faster rollout compared to native nuPlan. Extensive experiments shows that PlannerRFT yields state-of-the-art performance with distinct behaviors emerging during the learning process.
- Abstract(参考訳): 拡散に基づくプランナーは、自動運転における人間のような軌道生成の有望なアプローチとして現れてきた。
最近の研究は、世代評価ループにおける報酬指向最適化による拡散プランナーの堅牢性を高めるために、強化微調整を取り入れている。
しかし、彼らはマルチモーダルでシナリオ適応的な軌道を生成するのに苦労し、微調整中の情報報酬の活用効率を損なう。
そこで本研究では,拡散型プランナのための試料効率強化微調整フレームワークであるPlannerRFTを提案する。
PlannerRFTは、軌道分布を同時に改善し、元の推論パイプラインを変更することなく、より有望な探索に向けてデノイングプロセスを適応的にガイドするデュアルブランチ最適化を採用している。
並列学習の大規模化を支援するため,ネイティブの nuPlan に比べて10倍高速なロールアウトを実現する最適化シミュレータ nuMax を開発した。
広汎な実験により、PlannerRFTは、学習プロセス中に異なる振る舞いが出現し、最先端のパフォーマンスが得られることが示された。
関連論文リスト
- Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening [56.99266993852532]
拡散シャープニング(Diffusion-Sharpening)は、サンプリング軌道を最適化することで下流のアライメントを向上させる微調整手法である。
提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。
論文 参考訳(メタデータ) (2025-02-17T18:57:26Z) - Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。
近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。
我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。
本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。
提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-07-25T20:02:57Z) - Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。
そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。
DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-09T17:18:33Z) - Learning to Initialize Trajectory Optimization for Vision-Based Autonomous Flight in Unknown Environments [4.0543433786183485]
未知環境における自律飛行のためのニューラル・エンハンスト・トレイ・プランナー(NEO-Planner)を提案する。
NEO-Plannerは、生のセンサー観測から直接軌道の空間的および時間的パラメータを予測することを学ぶ。
最適化を20%削減し、純粋な最適化手法と比較して軌道時間も26%減少する。
論文 参考訳(メタデータ) (2023-09-19T15:07:26Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。