論文の概要: Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling
- arxiv url: http://arxiv.org/abs/2505.17659v3
- Date: Fri, 26 Sep 2025 04:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.385597
- Title: Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling
- Title(参考訳): Plan-R1: 言語モデリングとしての安全な軌道計画
- Authors: Xiaolong Tang, Meina Kan, Shiguang Shan, Xilin Chen,
- Abstract要約: 本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 74.41886258801209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe and feasible trajectory planning is critical for real-world autonomous driving systems. However, existing learning-based planners rely heavily on expert demonstrations, which not only lack explicit safety awareness but also risk inheriting undesirable behaviors such as speeding from suboptimal human driving data. Inspired by the success of large language models, we propose Plan-R1, a two-stage trajectory planning framework that decouples principle alignment from behavior learning. In the first stage, a general trajectory predictor is pre-trained on expert data to capture diverse, human-like driving behaviors. In the second stage, the model is fine-tuned with rule-based rewards using Group Relative Policy Optimization (GRPO), explicitly aligning ego planning with principles such as safety, comfort, and traffic rule compliance. This two-stage paradigm retains human-like behaviors while enhancing safety awareness and discarding undesirable patterns from demonstrations. Furthermore, we identify a key limitation of directly applying GRPO to planning: group-wise normalization erases cross-group scale differences, causing rare, high-variance safety-violation groups to have similar advantages as abundant low-variance safe groups, thereby suppressing optimization for safety-critical objectives. To address this, we propose Variance-Decoupled GRPO (VD-GRPO), which replaces normalization with centering and fixed scaling to preserve absolute reward magnitudes, ensuring that safety-critical objectives remain dominant throughout training. Experiments on the nuPlan benchmark demonstrate that Plan-R1 significantly improves planning safety and feasibility, achieving state-of-the-art performance, particularly in realistic reactive settings. Our code is available at https://github.com/XiaolongTang23/Plan-R1.
- Abstract(参考訳): 安全で実現可能な軌道計画は、現実の自動運転システムにとって重要である。
しかし、既存の学習ベースのプランナーは専門家によるデモンストレーションに大きく依存しており、これは明確な安全性の認識を欠いているだけでなく、人間の運転データからのスピードアップのような望ましくない行動を継承するリスクもある。
大規模言語モデルの成功に触発されたPlan-R1は、行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークである。
第一段階では、一般軌道予測器が専門家データに基づいて事前訓練され、多様な人間のような運転行動を捉える。
第2段階では、モデルは、グループ相対政策最適化(GRPO)を使用してルールベースの報酬で微調整され、エゴ計画と安全、快適、交通規則の遵守といった原則を明示的に整合させる。
この2段階のパラダイムは、安全性の意識を高め、デモから望ましくないパターンを捨てながら、人間のような行動を維持する。
グループワイドの正規化は、グループ間スケールの差を排除し、希少で高分散の安全違反集団は、十分に低分散の安全グループと同様の利点を持ち、安全クリティカルな目的に対する最適化を抑える。
そこで本研究では,正規化を中心と固定スケーリングに置き換え,絶対的な報酬の規模を保ち,安全クリティカルな目標がトレーニングを通じて支配的であることを保証する,分散分離型GRPO(VD-GRPO)を提案する。
nuPlanベンチマークの実験では、Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端のパフォーマンス、特に現実的なリアクティブな設定を実現している。
私たちのコードはhttps://github.com/XiaolongTang23/Plan-R1.comで利用可能です。
関連論文リスト
- Diffusion-Based Planning for Autonomous Driving with Flexible Guidance [19.204115959760788]
閉ループ計画のための新しい変圧器ベース拡散プランナを提案する。
本モデルは,予測タスクと計画タスクの協調モデリングを支援する。
様々な運転スタイルで頑健な伝達性を持つ最先端の閉ループ性能を実現する。
論文 参考訳(メタデータ) (2025-01-26T15:49:50Z) - LHPF: Look back the History and Plan for the Future in Autonomous Driving [10.855426442780516]
本稿では,歴史計画情報を統合した模倣学習プランナ LHPF を紹介する。
我々のアプローチでは、歴史的計画意図をプールする歴史的意図集約モジュールを採用している。
実世界のデータと合成データの両方を用いた実験は、LHPFが既存の高度な学習ベースのプランナーに勝るだけでなく、純粋に学習ベースのプランナーがエキスパートを上回った最初の事例であることを示している。
論文 参考訳(メタデータ) (2024-11-26T09:30:26Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Integration of Reinforcement Learning Based Behavior Planning With
Sampling Based Motion Planning for Automated Driving [0.5801044612920815]
本研究では,高度行動計画のための訓練された深層強化学習ポリシーを用いる方法を提案する。
私たちの知る限りでは、この研究は、この方法で深層強化学習を適用した最初のものである。
論文 参考訳(メタデータ) (2023-04-17T13:49:55Z) - Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic
Prior [135.78858513845233]
STRIVEは、特定のプランナーが衝突のような望ましくない振る舞いを発生させるような、困難なシナリオを自動的に生成する手法である。
シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。
その後の最適化は、シナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。
論文 参考訳(メタデータ) (2021-12-09T18:03:27Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z) - PiP: Planning-informed Trajectory Prediction for Autonomous Driving [69.41885900996589]
マルチエージェント設定における予測問題に対処するために,計画インフォームド・トラジェクトリ予測(PiP)を提案する。
本手法は,エゴカーの計画により予測過程を通知することにより,高速道路のデータセット上でのマルチエージェント予測の最先端性能を実現する。
論文 参考訳(メタデータ) (2020-03-25T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。