論文の概要: Purpose in the Machine: Do Traffic Simulators Produce Distributionally
Equivalent Outcomes for Reinforcement Learning Applications?
- arxiv url: http://arxiv.org/abs/2311.08429v1
- Date: Tue, 14 Nov 2023 01:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 18:55:23.982620
- Title: Purpose in the Machine: Do Traffic Simulators Produce Distributionally
Equivalent Outcomes for Reinforcement Learning Applications?
- Title(参考訳): 機械の目的: 交通シミュレーターは強化学習アプリケーションに等価な成果をもたらすか?
- Authors: Rex Chen, Kathleen M. Carley, Fei Fang, Norman Sadeh
- Abstract要約: 本研究は,交通アプリケーションのための強化学習(RL)エージェントの訓練によく使用される2つのシミュレータであるCityFlowとSUMOに焦点を当てる。
制御された仮想実験では、運転者の挙動やシミュレーションスケールが、これらのシミュレータからRL関連測度における分布同値性を示す証拠を見出した。
これらの結果は,交通シミュレータはRLトレーニングのデウス・エグゼクティブ・マシンナではないことを示唆している。
- 参考スコア(独自算出の注目度): 35.719833726363085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traffic simulators are used to generate data for learning in intelligent
transportation systems (ITSs). A key question is to what extent their modelling
assumptions affect the capabilities of ITSs to adapt to various scenarios when
deployed in the real world. This work focuses on two simulators commonly used
to train reinforcement learning (RL) agents for traffic applications, CityFlow
and SUMO. A controlled virtual experiment varying driver behavior and
simulation scale finds evidence against distributional equivalence in
RL-relevant measures from these simulators, with the root mean squared error
and KL divergence being significantly greater than 0 for all assessed measures.
While granular real-world validation generally remains infeasible, these
findings suggest that traffic simulators are not a deus ex machina for RL
training: understanding the impacts of inter-simulator differences is necessary
to train and deploy RL-based ITSs.
- Abstract(参考訳): 交通シミュレータは、インテリジェントトランスポートシステム(ITS)で学習するためのデータを生成するために使用される。
重要な疑問は、それらのモデリング仮定が現実世界にデプロイされたときに様々なシナリオに適応するためのITSの能力にどの程度影響するかである。
本研究は,交通応用のための強化学習(RL)エージェントを訓練する2つのシミュレータであるCityFlowとSUMOに焦点を当てる。
制御された仮想実験では、これらのシミュレータからRL関連測度における分布同値性を示す証拠が得られ、根平均二乗誤差とKL偏差はすべての評価測度で0よりかなり大きい。
これらの結果は、交通シミュレータがRLトレーニングのデウス・エグゼクティブ・マシンナではないことを示唆している。RLベースのITSの訓練と展開には、シミュレーション間の差異の影響を理解する必要がある。
関連論文リスト
- Learning Realistic Traffic Agents in Closed-loop [36.38063449192355]
強化学習(RL)は、違反を避けるために交通エージェントを訓練することができるが、RLのみを使用することで非人間的な運転行動をもたらす。
本稿では,交通規制制約の下で,専門家による実演と一致させるためにRTR(Reinforce Traffic Rules)を提案する。
実験の結果,RTRはより現実的で一般化可能な交通シミュレーションポリシーを学習することがわかった。
論文 参考訳(メタデータ) (2023-11-02T16:55:23Z) - Transfer of Reinforcement Learning-Based Controllers from Model- to
Hardware-in-the-Loop [1.8218298349840023]
強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。
組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。
本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-25T09:13:12Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。
シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。
本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T07:55:07Z) - LemgoRL: An open-source Benchmark Tool to Train Reinforcement Learning
Agents for Traffic Signal Control in a real-world simulation scenario [0.0]
交差点交通信号制御装置(tsc)のサブ最適制御方針は混雑に寄与し、人間の健康や環境に悪影響を及ぼす。
ドイツの中規模都市Lemgoの現実的なシミュレーション環境において,RTLエージェントをTSCとして訓練するためのベンチマークツールであるLemgoRLを提案する。
LemgoRLは、既知のOpenAIジムツールキットと同じインターフェースを提供し、既存の研究作業を簡単に展開できる。
論文 参考訳(メタデータ) (2021-03-30T10:11:09Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - Development of A Stochastic Traffic Environment with Generative
Time-Series Models for Improving Generalization Capabilities of Autonomous
Driving Agents [0.0]
我々は,実生活軌跡データに基づいてGAN(Generative Badrial Network)を訓練し,データ駆動交通シミュレータを開発した。
シミュレータは、車両間の実生活の交通相互作用に似たランダムな軌跡を生成する。
GANに基づく交通シミュレーターで訓練されたRLエージェントは、単純なルール駆動シミュレーターで訓練されたRLエージェントと比較して、より強力な一般化能力を有することを示す。
論文 参考訳(メタデータ) (2020-06-10T13:14:34Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。