論文の概要: Offline Reinforcement Learning for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.18662v1
- Date: Sun, 21 Dec 2025 09:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.443591
- Title: Offline Reinforcement Learning for End-to-End Autonomous Driving
- Title(参考訳): エンドツーエンド自動運転のためのオフライン強化学習
- Authors: Chihiro Noguchi, Takaki Yamamoto,
- Abstract要約: エンドツーエンド(E2E)自律走行モデルは、カメライメージのみを入力として取り、将来の軌道を直接予測する。
オンライン強化学習(RL)は、ILによる問題を緩和する可能性がある。
カメラのみのE2EオフラインRLフレームワークを導入し、追加の探索を行わず、固定されたシミュレータデータセットのみをトレーニングする。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) autonomous driving models that take only camera images as input and directly predict a future trajectory are appealing for their computational efficiency and potential for improved generalization via unified optimization; however, persistent failure modes remain due to reliance on imitation learning (IL). While online reinforcement learning (RL) could mitigate IL-induced issues, the computational burden of neural rendering-based simulation and large E2E networks renders iterative reward and hyperparameter tuning costly. We introduce a camera-only E2E offline RL framework that performs no additional exploration and trains solely on a fixed simulator dataset. Offline RL offers strong data efficiency and rapid experimental iteration, yet is susceptible to instability from overestimation on out-of-distribution (OOD) actions. To address this, we construct pseudo ground-truth trajectories from expert driving logs and use them as a behavior regularization signal, suppressing imitation of unsafe or suboptimal behavior while stabilizing value learning. Training and closed-loop evaluation are conducted in a neural rendering environment learned from the public nuScenes dataset. Empirically, the proposed method achieves substantial improvements in collision rate and route completion compared with IL baselines. Our code will be available at [URL].
- Abstract(参考訳): カメラ画像のみを入力として、将来の軌跡を直接予測するエンド・ツー・エンド(E2E)自律運転モデルは、その計算効率と統一最適化による一般化の可能性を訴えている。
オンライン強化学習(RL)は、ILが引き起こす問題を緩和する可能性があるが、ニューラルネットワークによるシミュレーションと大規模なE2Eネットワークの計算負担は、反復的な報酬とハイパーパラメータチューニングにコストがかかる。
カメラのみのE2EオフラインRLフレームワークを導入し、追加の探索を行わず、固定されたシミュレータデータセットのみをトレーニングする。
オフラインRLは強力なデータ効率と迅速な実験的なイテレーションを提供するが、アウト・オブ・ディストリビューション(OOD)アクションの過大評価による不安定性の影響を受けやすい。
そこで,本研究では,専門家の運転ログから擬似的地動軌跡を構築し,それを行動規則化信号として利用し,価値学習の安定化を図りながら,安全でない行動や準最適行動の模倣を抑制する。
公開nuScenesデータセットから学習したニューラルネットワークレンダリング環境で、トレーニングとクローズドループ評価を行う。
提案手法は,ILベースラインと比較して,衝突速度と経路完了率を大幅に向上させる。
私たちのコードは[URL]で利用可能です。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - ZTRS: Zero-Imitation End-to-end Autonomous Driving with Trajectory Scoring [52.195295396336526]
ZTRS(Zero-Imitation End-to-End Autonomous Driving with Trajectory Scoring)は、情報を失うことなくセンサー入力と堅牢な計画のためのRLトレーニングという、両方の世界の強みを組み合わせたフレームワークである。
ZTRSは、Navtest、Navhard、HUGSIMの3つのベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-10-28T06:26:36Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - First Order Model-Based RL through Decoupled Backpropagation [10.963895023346879]
勾配計算から軌道生成を分離する手法を提案する。
本手法は,SHACなどの特殊な移動のサンプル効率と速度を実現する。
我々は、ベンチマーク制御タスクにおける勾配アルゴリズムを実証的に検証し、実際のGo2四足歩行ロボット上での有効性を実証する。
論文 参考訳(メタデータ) (2025-08-29T19:55:25Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Improving Offline Reinforcement Learning with Inaccurate Simulators [34.54402525918925]
オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。
具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。
D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。
論文 参考訳(メタデータ) (2024-05-07T13:29:41Z) - Offline Trajectory Optimization for Offline Reinforcement Learning [42.306438854850434]
オフライン強化学習は オンライン調査なしで 政策を学ぶことを目的としています
オフラインRLのための既存のデータ拡張手法は、(i)短期水平シミュレーションによる自明な改善に悩まされている。
オフライン強化学習(OTTO)のためのオフライン軌道最適化を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。