論文の概要: Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.13842v1
- Date: Sat, 14 Mar 2026 08:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.438846
- Title: Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving
- Title(参考訳): ファインチューニングは十分ではない: エンドツーエンド自動運転における協調的模倣と強化学習のための並列フレームワーク
- Authors: Zhexi Lian, Haoran Wang, Xuerun Yan, Weimeng Lin, Xianhong Zhang, Yongyu Chen, Jia Hu,
- Abstract要約: PaIR-Driveは、エンドツーエンドの自動運転における協調および強化学習のための一般的なフレームワークである。
トレーニング中、PaIR-DriveはILとRLを2つの並列ブランチに分離する。
PaIR-Driveは既存のRLファインチューニング法を一貫して上回り、人間の専門家の準最適動作を補正する可能性さえある。
- 参考スコア(独自算出の注目度): 7.691237575352413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving is typically built upon imitation learning (IL), yet its performance is constrained by the quality of human demonstrations. To overcome this limitation, recent methods incorporate reinforcement learning (RL) through sequential fine-tuning. However, such a paradigm remains suboptimal: sequential RL fine-tuning can introduce policy drift and often leads to a performance ceiling due to its dependence on the pretrained IL policy. To address these issues, we propose PaIR-Drive, a general Parallel framework for collaborative Imitation and Reinforcement learning in end-to-end autonomous driving. During training, PaIR-Drive separates IL and RL into two parallel branches with conflict-free training objectives, enabling fully collaborative optimization. This design eliminates the need to retrain RL when applying a new IL policy. During inference, RL leverages the IL policy to further optimize the final plan, allowing performance beyond prior knowledge of IL. Furthermore, we introduce a tree-structured trajectory neural sampler to group relative policy optimization (GRPO) in the RL branch, which enhances exploration capability. Extensive analysis on NAVSIMv1 and v2 benchmark demonstrates that PaIR-Drive achieves Competitive performance of 91.2 PDMS and 87.9 EPDMS, building upon Transfuser and DiffusionDrive IL baselines. PaIR-Drive consistently outperforms existing RL fine-tuning methods, and could even correct human experts' suboptimal behaviors. Qualitative results further confirm that PaIR-Drive can effectively explore and generate high-quality trajectories.
- Abstract(参考訳): エンドツーエンドの自動運転は通常、模倣学習(IL)に基づいて構築されるが、その性能は人間の実演の品質に制約される。
この制限を克服するため、近年の手法は逐次微調整による強化学習(RL)を取り入れている。
シーケンシャルなRLファインチューニングは、ポリシードリフトを導入し、事前訓練されたILポリシーに依存しているため、しばしばパフォーマンス天井につながる。
これらの課題に対処するため、我々は、エンドツーエンドの自動運転における協調的模倣と強化学習のための一般的なパラレルフレームワークであるPaIR-Driveを提案する。
トレーニング中、PaIR-DriveはILとRLをコンフリクトフリーのトレーニング目標を持つ2つの並列ブランチに分離し、完全に協調的な最適化を可能にする。
この設計により、新しいILポリシーを適用する際にRLを再訓練する必要がなくなる。
推論中、RLはILポリシーを利用して最終計画をさらに最適化し、ILの以前の知識を超えたパフォーマンスを実現する。
さらに,RLブランチにおけるグループ相対政策最適化(GRPO)に木構造トラジェクトリニューラルサンプリングを導入し,探索能力を向上させる。
NAVSIMv1とv2ベンチマークの大規模な分析は、PaIR-Driveが91.2 PDMSと87.9 EPDMSの競合性能を達成し、TransfuserとDiffusionDrive ILベースラインを構築していることを示している。
PaIR-Driveは既存のRLファインチューニング法を一貫して上回り、人間の専門家の準最適動作を補正する可能性さえある。
質的な結果は、PaIR-Driveが高品質な軌道を効果的に探索し生成できることをさらに確認する。
関連論文リスト
- PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning [23.599241673009956]
Pseudo-simulation-based RL method for closed-loop end-to-end autonomous driving, PerlAD。
オフラインデータセットに基づいて、PerlADはベクトル空間で動作する擬似シミュレーションを構築し、効率的でレンダリング不要なトライアルとエラーのトレーニングを可能にする。
PerlADはBench2Driveベンチマークで最先端のパフォーマンスを達成し、以前のE2E RL法を10.29%上回った。
論文 参考訳(メタデータ) (2026-03-16T07:09:07Z) - Large Multimodal Models for Embodied Intelligent Driving: The Next Frontier in Self-Driving? [68.82027978227008]
この記事では、この課題に取り組むために、新しいセマンティクスとポリシーの二重駆動型ハイブリッド決定フレームワークを紹介します。
このフレームワークは、意味理解と認知表現のためのLMMと、リアルタイムポリシー最適化のための深層強化学習(DRL)を統合している。
本研究は,車線変更計画作業におけるフレームワークの性能優位性を検証するための事例研究である。
論文 参考訳(メタデータ) (2026-01-13T11:05:12Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。