論文の概要: Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling
- arxiv url: http://arxiv.org/abs/2505.17659v2
- Date: Tue, 27 May 2025 14:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.863783
- Title: Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling
- Title(参考訳): Plan-R1: 言語モデリングとしての安全な軌道計画
- Authors: Xiaolong Tang, Meina Kan, Shiguang Shan, Xilin Chen,
- Abstract要約: Plan-R1は、軌道計画を逐次予測タスクとして定式化する、新しい2段階の軌道計画フレームワークである。
第1段階では,専門家データに基づく次の動きトークン予測により,自己回帰軌道予測器を訓練する。
第2段階では、規則に基づく報酬(衝突回避、速度制限など)を設計し、グループ相対政策最適化を用いてモデルを微調整する。
- 参考スコア(独自算出の注目度): 75.83583076519311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe and feasible trajectory planning is essential for real-world autonomous driving systems. However, existing learning-based planning methods often rely on expert demonstrations, which not only lack explicit safety awareness but also risk inheriting unsafe behaviors such as speeding from suboptimal human driving data. Inspired by the success of large language models, we propose Plan-R1, a novel two-stage trajectory planning framework that formulates trajectory planning as a sequential prediction task, guided by explicit planning principles such as safety, comfort, and traffic rule compliance. In the first stage, we train an autoregressive trajectory predictor via next motion token prediction on expert data. In the second stage, we design rule-based rewards (e.g., collision avoidance, speed limits) and fine-tune the model using Group Relative Policy Optimization (GRPO), a reinforcement learning strategy, to align its predictions with these planning principles. Experiments on the nuPlan benchmark demonstrate that our Plan-R1 significantly improves planning safety and feasibility, achieving state-of-the-art performance. Our code will be made public soon.
- Abstract(参考訳): 現実の自動運転システムには安全で実現可能な軌道計画が不可欠である。
しかし、既存の学習ベースの計画手法は、しばしば専門家によるデモンストレーションに頼っている。
大規模言語モデルの成功にインスパイアされたPlan-R1は,安全,快適,交通規則順守といった明確な計画原則によって導かれる逐次予測タスクとして軌道計画を定式化する,新しい2段階の軌道計画フレームワークである。
第1段階では,専門家データに基づく次の動きトークン予測により,自己回帰軌道予測器を訓練する。
第2段階では、ルールに基づく報酬(衝突回避、速度制限など)を設計し、強化学習戦略であるグループ相対政策最適化(GRPO)を用いてモデルを微調整し、予測をこれらの計画原則と整合させる。
nuPlanベンチマークの実験では、Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端のパフォーマンスを実現しています。
私たちのコードはまもなく公開されます。
関連論文リスト
- RAPiD: Real-time Deterministic Trajectory Planning via Diffusion Behavior Priors for Safe and Efficient Autonomous Driving [5.030754278104693]
RAPiDは、事前訓練された拡散型プランナーを効率的なポリシーに蒸留する決定論的政策抽出フレームワークである。
安全と乗客の快適性を促進するため、予測ドライバコントローラを模倣するように訓練された評論家を用いてポリシーを最適化する。
論文 参考訳(メタデータ) (2026-02-07T03:44:50Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Learning Safe Autonomous Driving Policies Using Predictive Safety Representations [0.0]
安全強化学習(SafeRL)は、自動運転における重要なパラダイムである。
リスク政策学習のための安全表現(SRPL)フレームワークは、エージェントに将来の違反の予測モデルを設けることでこの問題に対処する。
本稿では,SRPLが現実の自動運転シナリオに拡張するかどうかを検討する。
論文 参考訳(メタデータ) (2025-12-19T13:52:19Z) - SUPER-AD: Semantic Uncertainty-aware Planning for End-to-End Robust Autonomous Driving [36.91878828972102]
本稿では,BEV空間におけるアレータリック不確実性を直接推定し,それを計画に組み込む,カメラのみのE2Eフレームワークを提案する。
本手法は,画素レベルの解像度で意味構造と幾何学的レイアウトの両方をキャプチャする,密度の高い不確実性を考慮したドライバビリティマップを生成する。
論文 参考訳(メタデータ) (2025-11-28T03:50:44Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - Diffusion-Based Planning for Autonomous Driving with Flexible Guidance [19.204115959760788]
閉ループ計画のための新しい変圧器ベース拡散プランナを提案する。
本モデルは,予測タスクと計画タスクの協調モデリングを支援する。
様々な運転スタイルで頑健な伝達性を持つ最先端の閉ループ性能を実現する。
論文 参考訳(メタデータ) (2025-01-26T15:49:50Z) - LHPF: Look back the History and Plan for the Future in Autonomous Driving [10.855426442780516]
本稿では,歴史計画情報を統合した模倣学習プランナ LHPF を紹介する。
我々のアプローチでは、歴史的計画意図をプールする歴史的意図集約モジュールを採用している。
実世界のデータと合成データの両方を用いた実験は、LHPFが既存の高度な学習ベースのプランナーに勝るだけでなく、純粋に学習ベースのプランナーがエキスパートを上回った最初の事例であることを示している。
論文 参考訳(メタデータ) (2024-11-26T09:30:26Z) - RuleFuser: An Evidential Bayes Approach for Rule Injection in Imitation Learned Planners and Predictors for Robustness under Distribution Shifts [20.405998427564764]
RuleFuserは、ILプランナーと古典的なルールベースのプランナーを組み合わせることで、両方の相補的な利点を引き出す。
我々のアプローチは現実世界のnuPlanデータセットでテストされ、ILプランナよりも平均38.43%の安全性向上を実現しています。
論文 参考訳(メタデータ) (2024-05-18T01:49:16Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Integration of Reinforcement Learning Based Behavior Planning With
Sampling Based Motion Planning for Automated Driving [0.5801044612920815]
本研究では,高度行動計画のための訓練された深層強化学習ポリシーを用いる方法を提案する。
私たちの知る限りでは、この研究は、この方法で深層強化学習を適用した最初のものである。
論文 参考訳(メタデータ) (2023-04-17T13:49:55Z) - Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic
Prior [135.78858513845233]
STRIVEは、特定のプランナーが衝突のような望ましくない振る舞いを発生させるような、困難なシナリオを自動的に生成する手法である。
シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。
その後の最適化は、シナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。
論文 参考訳(メタデータ) (2021-12-09T18:03:27Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z) - PiP: Planning-informed Trajectory Prediction for Autonomous Driving [69.41885900996589]
マルチエージェント設定における予測問題に対処するために,計画インフォームド・トラジェクトリ予測(PiP)を提案する。
本手法は,エゴカーの計画により予測過程を通知することにより,高速道路のデータセット上でのマルチエージェント予測の最先端性能を実現する。
論文 参考訳(メタデータ) (2020-03-25T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。