論文の概要: RoaD: Rollouts as Demonstrations for Closed-Loop Supervised Fine-Tuning of Autonomous Driving Policies
- arxiv url: http://arxiv.org/abs/2512.01993v1
- Date: Mon, 01 Dec 2025 18:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.030546
- Title: RoaD: Rollouts as Demonstrations for Closed-Loop Supervised Fine-Tuning of Autonomous Driving Policies
- Title(参考訳): RoaD:自動運転政策の細調整を監督するクローズドループのデモとしての役割
- Authors: Guillermo Garcia-Cobo, Maximilian Igl, Peter Karkus, Zhejun Zhang, Michael Watson, Yuxiao Chen, Boris Ivanovic, Marco Pavone,
- Abstract要約: ロールアウト・アズ・デモレーション(RoaD)は、クローズドループにおける自律運転ポリシーのトレーニングにおいて、共変量シフトを軽減する方法である。
ロールアウト生成の間、RoaDは高品質な振る舞いに対するバイアス軌道に関する専門家のガイダンスを取り入れ、微調整のための情報的かつ現実的なデモンストレーションを生み出した。
本稿では,大規模な交通シミュレーションベンチマークであるWOSACにおけるRoaDの有効性を示す。
- 参考スコア(独自算出の注目度): 30.632104005565832
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous driving policies are typically trained via open-loop behavior cloning of human demonstrations. However, such policies suffer from covariate shift when deployed in closed loop, leading to compounding errors. We introduce Rollouts as Demonstrations (RoaD), a simple and efficient method to mitigate covariate shift by leveraging the policy's own closed-loop rollouts as additional training data. During rollout generation, RoaD incorporates expert guidance to bias trajectories toward high-quality behavior, producing informative yet realistic demonstrations for fine-tuning. This approach enables robust closed-loop adaptation with orders of magnitude less data than reinforcement learning, and avoids restrictive assumptions of prior closed-loop supervised fine-tuning (CL-SFT) methods, allowing broader applications domains including end-to-end driving. We demonstrate the effectiveness of RoaD on WOSAC, a large-scale traffic simulation benchmark, where it performs similar or better than the prior CL-SFT method; and in AlpaSim, a high-fidelity neural reconstruction-based simulator for end-to-end driving, where it improves driving score by 41\% and reduces collisions by 54\%.
- Abstract(参考訳): 自律運転ポリシーは通常、人間のデモのオープンループ行動クローニングを通じて訓練される。
しかし、そのようなポリシーは閉ループに展開する際の共変量シフトに悩まされ、複雑なエラーを引き起こす。
ポリシのクローズドループロールアウトを追加のトレーニングデータとして活用することにより,コバリアレートシフトを緩和する,シンプルかつ効率的な方法であるRoaDとしてロールアウトを導入する。
ロールアウト生成の間、RoaDは高品質な振る舞いに対するバイアス軌道に関する専門家のガイダンスを取り入れ、微調整のための情報的かつ現実的なデモンストレーションを生み出した。
このアプローチにより、強化学習よりも桁違いに少ないデータで堅牢な閉ループ適応が可能となり、従来の閉ループ教師あり微調整法(CL-SFT)の制約的な仮定を回避し、エンド・ツー・エンド・ドライブを含む幅広いアプリケーション・ドメインを実現する。
大規模交通シミュレーションベンチマークであるWOSACにおけるRoaDの有効性を実証し,従来のCL-SFT法と同等かそれ以上の精度で動作し,AlpaSimでは運転スコアを41 %向上し,衝突率を54 %低減した。
関連論文リスト
- Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - Hydra-NeXt: Robust Closed-Loop Driving with Open-Loop Training [64.16445087751039]
Hydra-NeXtは、軌道予測、制御予測、軌道修正ネットワークを一つのモデルに統合する、新しいマルチブランチ計画フレームワークである。
Hydra-NeXt は22.98 DS と 17.49 SR を上回り、自動運転の大幅な進歩を示している。
論文 参考訳(メタデータ) (2025-03-15T07:42:27Z) - RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning [54.52545900359868]
3DGSをベースとしたエンドツーエンド自動運転のためのクローズドループ強化学習フレームワークRADを提案する。
安全性を高めるため、我々は、安全クリティカルな事象に効果的に対応し、現実世界の因果関係を理解するために、政策の指針となる特別報酬を設計する。
IL法と比較して、RADは閉ループのほとんどの測定値において、特に3倍の衝突速度を示す。
論文 参考訳(メタデータ) (2025-02-18T18:59:21Z) - Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models [32.51871127681948]
トークン化されたマルチエージェントポリシーは、最近、交通シミュレーションの最先端となっている。
それらは通常、オープンループのビヘイビアクローンによって訓練される。
簡単なクローズドループ微調整戦略であるTop-K(CAT-K)のロールアウトについて述べる。
論文 参考訳(メタデータ) (2024-12-05T21:00:21Z) - SoftCTRL: Soft conservative KL-control of Transformer Reinforcement Learning for Autonomous Driving [0.6906005491572401]
本稿では,暗黙のエントロピー-KL制御を用いて,ILと強化学習(RL)を組み合わせる手法を提案する。
特に、未確認のデータセットと異なる挑戦的都市シナリオを検証した結果、ILは模倣作業でうまく機能するが、提案手法はロバスト性(障害の17%以上)を著しく改善し、人間のような運転行動を生成することが示唆された。
論文 参考訳(メタデータ) (2024-10-30T07:18:00Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Bi-Level Optimization Augmented with Conditional Variational Autoencoder
for Autonomous Driving in Dense Traffic [0.9281671380673306]
本稿では、最適行動決定と結果の軌跡を共同で計算するパラメータ化バイレベル最適化を提案する。
当社のアプローチは,GPUアクセラレーションバッチを使用してリアルタイムに動作し,変分オートエンコーダがウォームスタート戦略を学習する。
本手法は, 運転効率の競争力に優れながら, 衝突速度の観点から, 最先端モデル予測制御とRLアプローチより優れる。
論文 参考訳(メタデータ) (2022-12-05T12:56:42Z) - Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive
Deep Reinforcement Learning [10.040113551761792]
我々は、ライダーに基づくエンドツーエンドの運転ポリシーのトレーニングに、深層強化学習(DRL)を使用します。
本研究では、DRLを用いて、不完全な部分観察を自然に考慮するライダーベースのエンドツーエンド駆動ポリシーを訓練する。
提案手法は,最新技術(SOTA)によるエンド・ツー・エンド駆動ネットワークよりも高い成功率を達成する。
論文 参考訳(メタデータ) (2021-09-17T11:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。