Fugu-MT 論文翻訳(概要): PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning

論文の概要: PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.14908v1
Date: Mon, 16 Mar 2026 07:09:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:36.123676
Title: PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning
Title（参考訳）: PerlAD: Pseudo-simulation-based Reinforcement Learningによる閉ループエンドツーエンド自動運転の強化を目指して
Authors: Yinfeng Gao, Qichao Zhang, Deqing Liu, Zhongpu Xia, Guang Li, Kun Ma, Guang Chen, Hangjun Ye, Long Chen, Da-Wei Ding, Dongbin Zhao,
Abstract要約: Pseudo-simulation-based RL method for closed-loop end-to-end autonomous driving, PerlAD。オフラインデータセットに基づいて、PerlADはベクトル空間で動作する擬似シミュレーションを構築し、効率的でレンダリング不要なトライアルとエラーのトレーニングを可能にする。 PerlADはBench2Driveベンチマークで最先端のパフォーマンスを達成し、以前のE2E RL法を10.29%上回った。
参考スコア（独自算出の注目度）: 23.599241673009956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: End-to-end autonomous driving policies based on Imitation Learning (IL) often struggle in closed-loop execution due to the misalignment between inadequate open-loop training objectives and real driving requirements. While Reinforcement Learning (RL) offers a solution by directly optimizing driving goals via reward signals, the rendering-based training environments introduce the rendering gap and are inefficient due to high computational costs. To overcome these challenges, we present a novel Pseudo-simulation-based RL method for closed-loop end-to-end autonomous driving, PerlAD. Based on offline datasets, PerlAD constructs a pseudo-simulation that operates in vector space, enabling efficient, rendering-free trial-and-error training. To bridge the gap between static datasets and dynamic closed-loop environments, PerlAD introduces a prediction world model that generates reactive agent trajectories conditioned on the ego vehicle's plan. Furthermore, to facilitate efficient planning, PerlAD utilizes a hierarchical decoupled planner that combines IL for lateral path generation and RL for longitudinal speed optimization. Comprehensive experimental results demonstrate that PerlAD achieves state-of-the-art performance on the Bench2Drive benchmark, surpassing the previous E2E RL method by 10.29% in Driving Score without requiring expensive online interactions. Additional evaluations on the DOS benchmark further confirm its reliability in handling safety-critical occlusion scenarios.
Abstract（参考訳）: イミテーションラーニング(IL)に基づくエンドツーエンドの自律運転ポリシーは、不十分なオープンループトレーニング目標と実際の運転要件の相違により、クローズドループ実行に苦慮することが多い。強化学習(Reinforcement Learning, RL)は、報酬信号による目標の直接最適化によるソリューションを提供するが、レンダリングベースのトレーニング環境はレンダリングギャップを導入し、高い計算コストのために非効率である。これらの課題を克服するために,Pseudo-simulation-based RL method for closed-loop end-to-end autonomous driving, PerlADを提案する。オフラインデータセットに基づいて、PerlADはベクトル空間で動作する擬似シミュレーションを構築し、効率的でレンダリング不要なトライアルとエラーのトレーニングを可能にする。静的データセットと動的クローズドループ環境のギャップを埋めるため、PerlADでは、エゴ車両の計画に条件付きリアクティブエージェントの軌道を生成する予測ワールドモデルを導入している。さらに、効率的な計画を容易にするために、PerlADは横方向の経路生成にIL、縦方向の速度最適化にRLを組み合わせた階層的な分離プランナを使用している。総合的な実験の結果、PerlADはBench2Driveベンチマークで最先端のパフォーマンスを達成し、従来のE2E RL法を10.29%上回った。 DOSベンチマークのさらなる評価は、安全クリティカルな閉塞シナリオを扱う際の信頼性をさらに裏付けるものである。

関連論文リスト

Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving [7.691237575352413]
PaIR-Driveは、エンドツーエンドの自動運転における協調および強化学習のための一般的なフレームワークである。トレーニング中、PaIR-DriveはILとRLを2つの並列ブランチに分離する。 PaIR-Driveは既存のRLファインチューニング法を一貫して上回り、人間の専門家の準最適動作を補正する可能性さえある。
論文参考訳（メタデータ） (2026-03-14T08:53:47Z)
Offline Reinforcement Learning for End-to-End Autonomous Driving [1.2891210250935148]
エンドツーエンド(E2E)自律走行モデルは、カメライメージのみを入力として取り、将来の軌道を直接予測する。オンライン強化学習(RL)は、ILによる問題を緩和する可能性がある。カメラのみのE2EオフラインRLフレームワークを導入し、追加の探索を行わず、固定されたシミュレータデータセットのみをトレーニングする。
論文参考訳（メタデータ） (2025-12-21T09:21:04Z)
TakeAD: Preference-based Post-optimization for End-to-end Autonomous Driving with Expert Takeover Data [40.3157492247442]
既存のエンドツーエンド自動運転手法は、通常模倣学習(IL)に依存している。このミスアライメントは、クローズドループ実行中に運転開始時の乗っ取りとシステム停止をトリガーすることが多い。本研究では,このデエンゲージメントデータを用いて,事前学習したILポリシーを微調整する,好みに基づくポスト最適化フレームワークであるTakeADを提案する。
論文参考訳（メタデータ） (2025-12-19T09:12:44Z)
Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。 MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。 MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文参考訳（メタデータ） (2025-11-26T17:01:41Z)
Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。 Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文参考訳（メタデータ） (2025-10-30T11:53:08Z)
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning [54.52545900359868]
3DGSをベースとしたエンドツーエンド自動運転のためのクローズドループ強化学習フレームワークRADを提案する。安全性を高めるため、我々は、安全クリティカルな事象に効果的に対応し、現実世界の因果関係を理解するために、政策の指針となる特別報酬を設計する。 IL法と比較して、RADは閉ループのほとんどの測定値において、特に3倍の衝突速度を示す。
論文参考訳（メタデータ） (2025-02-18T18:59:21Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。複雑な動的トラフィックシナリオを処理できる。 CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文参考訳（メタデータ） (2024-10-03T06:45:59Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。