論文の概要: CorrectionPlanner: Self-Correction Planner with Reinforcement Learning in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.15771v1
- Date: Mon, 16 Mar 2026 18:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.930671
- Title: CorrectionPlanner: Self-Correction Planner with Reinforcement Learning in Autonomous Driving
- Title(参考訳): 補正プランナー:自動運転における強化学習による自己補正プランナー
- Authors: Yihong Guo, Dongqiangzi Ye, Sijia Chen, Anqi Liu, Xianming Liu,
- Abstract要約: CorrectionPlannerは自己補正を備えた自動回帰プランナーである。
Waymaxでは衝突率を20%以上削減し、nuPlanでは最先端の計画スコアを達成している。
- 参考スコア(独自算出の注目度): 55.88697462014118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving requires safe planning, but most learning-based planners lack explicit self-correction ability: once an unsafe action is proposed, there is no mechanism to correct it. Thus, we propose CorrectionPlanner, an autoregressive planner with self-correction that models planning as motion-token generation within a propose, evaluate, and correct loop. At each planning step, the policy proposes an action, namely a motion token, and a learned collision critic predicts whether it will induce a collision within a short horizon. If the critic predicts a collision, we retain the sequence of historical unsafe motion tokens as a self-correction trace, generate the next motion token conditioned on it, and repeat this process until a safe motion token is proposed or the safety criterion is met. This self-correction trace, consisting of all unsafe motion tokens, represents the planner's correction process in motion-token space, analogous to a reasoning trace in language models. We train the planner with imitation learning followed by model-based reinforcement learning using rollouts from a pretrained world model that realistically models agents' reactive behaviors. Closed-loop evaluations show that CorrectionPlanner reduces collision rate by over 20% on Waymax and achieves state-of-the-art planning scores on nuPlan.
- Abstract(参考訳): 自動運転は安全な計画を必要とするが、ほとんどの学習ベースのプランナーは明示的な自己訂正能力を持っていない。
そこで我々は,自己補正型自己回帰プランナであるCorrectionPlannerを提案する。
それぞれの計画段階において、政策は動きトークンと呼ばれるアクションを提案し、学習された衝突評論家は短い地平線内で衝突を引き起こすかどうかを予測する。
批評家が衝突を予測した場合、過去の安全でない動きトークンのシーケンスを自己補正トレースとして保持し、その上に条件付き次の動きトークンを生成し、安全な動きトークンが提案されるか、安全基準が満たされるまでこのプロセスを繰り返す。
この自己補正トレースは、すべての安全でないモーショントークンから構成されており、言語モデルにおける推論トレースに類似した、運動トーケン空間におけるプランナーの補正プロセスを表している。
我々は,エージェントの反応挙動を現実的にモデル化する事前訓練された世界モデルからのロールアウトを用いて,モデルに基づく強化学習を行い,模倣学習でプランナーを訓練する。
閉ループ評価では、CorrectionPlannerはWaymaxで衝突率を20%以上削減し、nuPlanで最先端の計画スコアを達成している。
関連論文リスト
- Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling [21.45039811922009]
我々は、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。
効率的なクローズドループ計画のためのネスト型平衡系列モデリング手法を考案した。
提案手法はVirtualHome-Envベンチマークで評価され,スケーリングw.r.t.推論時間計算の改善による高度な性能を示す。
論文 参考訳(メタデータ) (2024-10-02T11:42:49Z) - Model Checking for Closed-Loop Robot Reactive Planning [0.0]
モデル検査を用いて、ディファレンシャルドライブホイールロボットの多段階計画を作成することにより、即時危険を回避できることを示す。
簡単な生物エージェントのエゴセントリックな反応を反映した,小型で汎用的なモデル検査アルゴリズムを用いて,リアルタイムで計画を生成する。
論文 参考訳(メタデータ) (2023-11-16T11:02:29Z) - Deep Structured Reactive Planning [94.92994828905984]
自動運転のための新しいデータ駆動型リアクティブ計画目標を提案する。
本モデルは,非常に複雑な操作を成功させる上で,非反応性変種よりも優れることを示す。
論文 参考訳(メタデータ) (2021-01-18T01:43:36Z) - Enhancing Lattice-based Motion Planning with Introspective Learning and
Reasoning [3.2689702143620143]
この研究は、イントロスペクティブな学習と、時間の経過とともにコントローラのパフォーマンスに関する推論に関するものである。
異なるアクションの通常のコントローラ実行は、信頼性と不確実性を認識した機械学習技術を用いて学習される。
推論は、学習したモデルが安全であることを検証し、モーションプランナーにおける衝突チェックの有効性を改善するために行われる。
論文 参考訳(メタデータ) (2020-05-15T07:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。