論文の概要: CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.19918v1
- Date: Fri, 29 Mar 2024 02:10:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:44:26.688655
- Title: CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning
- Title(参考訳): CtRL-Sim:オフライン強化学習による反応性・制御可能な運転エージェント
- Authors: Luke Rowe, Roger Girgis, Anthony Gosselin, Bruno Carrez, Florian Golemo, Felix Heide, Liam Paull, Christopher Pal,
- Abstract要約: 本稿では,リアクティブかつ制御可能なトラフィックエージェントを効率的に生成するCtRL-Simを提案する。
我々はNocturneシミュレータを通して実世界の運転データを処理し、多様なオフライン強化学習データセットを生成する。
CtRL-Simは,エージェントの挙動を詳細に制御しながら,多様かつ現実的な安全クリティカルシナリオを効率的に生成できることを示す。
- 参考スコア(独自算出の注目度): 38.63187494867502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating autonomous vehicle stacks (AVs) in simulation typically involves replaying driving logs from real-world recorded traffic. However, agents replayed from offline data do not react to the actions of the AV, and their behaviour cannot be easily controlled to simulate counterfactual scenarios. Existing approaches have attempted to address these shortcomings by proposing methods that rely on heuristics or learned generative models of real-world data but these approaches either lack realism or necessitate costly iterative sampling procedures to control the generated behaviours. In this work, we take an alternative approach and propose CtRL-Sim, a method that leverages return-conditioned offline reinforcement learning within a physics-enhanced Nocturne simulator to efficiently generate reactive and controllable traffic agents. Specifically, we process real-world driving data through the Nocturne simulator to generate a diverse offline reinforcement learning dataset, annotated with various reward terms. With this dataset, we train a return-conditioned multi-agent behaviour model that allows for fine-grained manipulation of agent behaviours by modifying the desired returns for the various reward components. This capability enables the generation of a wide range of driving behaviours beyond the scope of the initial dataset, including those representing adversarial behaviours. We demonstrate that CtRL-Sim can efficiently generate diverse and realistic safety-critical scenarios while providing fine-grained control over agent behaviours. Further, we show that fine-tuning our model on simulated safety-critical scenarios generated by our model enhances this controllability.
- Abstract(参考訳): シミュレーションにおける自律走行車スタック(AV)の評価は、通常、実世界の記録されたトラフィックからログを再生する。
しかし、オフラインデータからリプレイされたエージェントはAVの動作に反応せず、その振る舞いは反現実的なシナリオをシミュレートするために簡単には制御できない。
既存のアプローチは、実世界のデータのヒューリスティックスや学習された生成モデルに依存する手法を提案し、これらの欠点に対処しようと試みてきたが、これらのアプローチは現実主義を欠いているか、生成された振る舞いを制御するためにコストのかかる反復的なサンプリング手順を必要とするかのいずれかである。
そこで本研究では,Nacturneシミュレータ内での返却条件付きオフライン強化学習を利用して,応答性および制御可能なトラヒックエージェントを効率的に生成する手法であるCtRL-Simを提案する。
具体的には、実世界の運転データをNocturneシミュレータを通して処理し、様々な報酬項を付加した多様なオフライン強化学習データセットを生成する。
このデータセットを用いて、返却条件付きマルチエージェント動作モデルをトレーニングし、様々な報酬成分に対して所望の戻り値を変更することでエージェント動作のきめ細かい操作を可能にする。
この機能は、敵の振る舞いを表すものを含む、初期データセットの範囲を超えて幅広い駆動行動を生成することができる。
我々は,CtRL-Simがエージェント動作のきめ細かい制御を提供しながら,多様かつ現実的な安全クリティカルシナリオを効率的に生成できることを実証した。
さらに、モデルが生成するシミュレーション安全クリティカルなシナリオを微調整することで、この制御性が向上することを示す。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - RealGen: Retrieval Augmented Generation for Controllable Traffic Scenarios [58.62407014256686]
RealGenは、トラフィックシナリオ生成のための新しい検索ベースのコンテキスト内学習フレームワークである。
RealGenは、複数の検索されたサンプルの振る舞いを勾配のない方法で組み合わせることで、新しいシナリオを合成する。
このコンテキスト内学習フレームワークは、シナリオを編集する機能を含む多種多様な生成機能を提供する。
論文 参考訳(メタデータ) (2023-12-19T23:11:06Z) - A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning [18.2541182874636]
現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。
我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
論文 参考訳(メタデータ) (2023-11-27T15:29:21Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Development of A Stochastic Traffic Environment with Generative
Time-Series Models for Improving Generalization Capabilities of Autonomous
Driving Agents [0.0]
我々は,実生活軌跡データに基づいてGAN(Generative Badrial Network)を訓練し,データ駆動交通シミュレータを開発した。
シミュレータは、車両間の実生活の交通相互作用に似たランダムな軌跡を生成する。
GANに基づく交通シミュレーターで訓練されたRLエージェントは、単純なルール駆動シミュレーターで訓練されたRLエージェントと比較して、より強力な一般化能力を有することを示す。
論文 参考訳(メタデータ) (2020-06-10T13:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。