論文の概要: AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models
- arxiv url: http://arxiv.org/abs/2511.20325v1
- Date: Tue, 25 Nov 2025 13:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.493104
- Title: AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models
- Title(参考訳): AD-R1: 世界モデルを用いたエンド・ツー・エンド自動運転のための閉ループ強化学習
- Authors: Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen,
- Abstract要約: 我々は,Impartial World Modelを中心に構築されたポストトレーニング政策改善のためのフレームワークを紹介する。
私たちの主な貢献は、このモデルに危険について正直であることを教えることです。
大規模な実験を通じて、我々のモデルは失敗を予測する上で、ベースラインを著しく上回っていることを実証する。
- 参考スコア(独自算出の注目度): 75.214287449744
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end models for autonomous driving hold the promise of learning complex behaviors directly from sensor data, but face critical challenges in safety and handling long-tail events. Reinforcement Learning (RL) offers a promising path to overcome these limitations, yet its success in autonomous driving has been elusive. We identify a fundamental flaw hindering this progress: a deep seated optimistic bias in the world models used for RL. To address this, we introduce a framework for post-training policy refinement built around an Impartial World Model. Our primary contribution is to teach this model to be honest about danger. We achieve this with a novel data synthesis pipeline, Counterfactual Synthesis, which systematically generates a rich curriculum of plausible collisions and off-road events. This transforms the model from a passive scene completer into a veridical forecaster that remains faithful to the causal link between actions and outcomes. We then integrate this Impartial World Model into our closed-loop RL framework, where it serves as an internal critic. During refinement, the agent queries the critic to ``dream" of the outcomes for candidate actions. We demonstrate through extensive experiments, including on a new Risk Foreseeing Benchmark, that our model significantly outperforms baselines in predicting failures. Consequently, when used as a critic, it enables a substantial reduction in safety violations in challenging simulations, proving that teaching a model to dream of danger is a critical step towards building truly safe and intelligent autonomous agents.
- Abstract(参考訳): 自動運転車のエンド・ツー・エンドモデルは、センサーデータから直接複雑な振る舞いを学ぶという約束を持っているが、安全とロングテールイベントの処理において重要な課題に直面している。
強化学習(RL)は、これらの制限を克服するための有望な道を提供するが、自動運転の成功は明白である。
我々は、この進歩を妨げる根本的な欠陥、すなわち、RLで使用される世界のモデルにおける深い楽観的偏見を識別する。
これを解決するために,Impartial World Modelを中心に構築されたポストトレーニング政策改善のためのフレームワークを導入する。
私たちの主な貢献は、このモデルに危険について正直であることを教えることです。
我々はこれを,可視衝突やオフロードイベントのリッチなカリキュラムを体系的に生成する,新しいデータ合成パイプラインである対実合成によって実現した。
これは、モデルを受動的シーンコンプリートから、アクションと結果の因果関係に忠実な検証予測器に変換する。
そして、このImpartial World ModelをクローズドループのRLフレームワークに統合し、内部的な批判として機能します。
改善の間、エージェントは、候補アクションの結果の‘dream’を批評家に問い合わせる。
我々は、新しいリスク予測ベンチマークを含む広範な実験を通じて、我々のモデルは障害予測のベースラインを大幅に上回っていることを実証する。
そのため、批評家としての使用は、危険を夢見るモデルを教えることが、真に安全でインテリジェントな自律エージェントを構築するための重要なステップであることを証明し、挑戦するシミュレーションにおける安全性違反の大幅な削減を可能にする。
関連論文リスト
- Adversarial Generation and Collaborative Evolution of Safety-Critical Scenarios for Autonomous Vehicles [47.25901323750217]
シミュレーションにおける安全クリティカルシナリオの生成は、社会に道路が配備される以前、自動運転車の安全性評価においてますます重要になっている。
我々は,新たなシナリオを推論し,複雑なトラフィックフローでそれらを増幅することにより,多彩な安全クリティカルシナリオを生成できるフレームワークであるScenGEを提案する。
実世界の車両テストと人間による評価を通じて、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2025-08-20T08:36:57Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。