論文の概要: Learning Realistic Traffic Agents in Closed-loop
- arxiv url: http://arxiv.org/abs/2311.01394v1
- Date: Thu, 2 Nov 2023 16:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 12:35:00.866105
- Title: Learning Realistic Traffic Agents in Closed-loop
- Title(参考訳): 閉ループにおける現実的交通エージェントの学習
- Authors: Chris Zhang, James Tu, Lunjun Zhang, Kelvin Wong, Simon Suo, Raquel
Urtasun
- Abstract要約: 強化学習(RL)は、違反を避けるために交通エージェントを訓練することができるが、RLのみを使用することで非人間的な運転行動をもたらす。
本稿では,交通規制制約の下で,専門家による実演と一致させるためにRTR(Reinforce Traffic Rules)を提案する。
実験の結果,RTRはより現実的で一般化可能な交通シミュレーションポリシーを学習することがわかった。
- 参考スコア(独自算出の注目度): 36.38063449192355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic traffic simulation is crucial for developing self-driving software
in a safe and scalable manner prior to real-world deployment. Typically,
imitation learning (IL) is used to learn human-like traffic agents directly
from real-world observations collected offline, but without explicit
specification of traffic rules, agents trained from IL alone frequently display
unrealistic infractions like collisions and driving off the road. This problem
is exacerbated in out-of-distribution and long-tail scenarios. On the other
hand, reinforcement learning (RL) can train traffic agents to avoid
infractions, but using RL alone results in unhuman-like driving behaviors. We
propose Reinforcing Traffic Rules (RTR), a holistic closed-loop learning
objective to match expert demonstrations under a traffic compliance constraint,
which naturally gives rise to a joint IL + RL approach, obtaining the best of
both worlds. Our method learns in closed-loop simulations of both nominal
scenarios from real-world datasets as well as procedurally generated long-tail
scenarios. Our experiments show that RTR learns more realistic and
generalizable traffic simulation policies, achieving significantly better
tradeoffs between human-like driving and traffic compliance in both nominal and
long-tail scenarios. Moreover, when used as a data generation tool for training
prediction models, our learned traffic policy leads to considerably improved
downstream prediction metrics compared to baseline traffic agents. For more
information, visit the project website: https://waabi.ai/rtr
- Abstract(参考訳): 現実的な交通シミュレーションは、現実の展開の前に安全でスケーラブルな方法で自動運転ソフトウェアを開発するために不可欠である。
通常、模倣学習(IL)は、オフラインで収集された実世界の観測から人間のような交通エージェントを直接学習するために使用されるが、交通規則の明示的な仕様がなければ、ILから訓練されたエージェントは、衝突や道路の運転のような非現実的な違反を頻繁に表示する。
この問題はアウト・オブ・ディストリビューションとロングテールのシナリオで悪化する。
一方、強化学習(RL)は、違反を避けるために交通エージェントを訓練することができるが、RLのみを使用することで非人間的な運転行動をもたらす。
本稿では,交通規制制約の下で専門家のデモンストレーションに適合する総合的な閉ループ学習目標であるReinforcecing Traffic Rules (RTR)を提案する。
提案手法は,実世界のデータセットと手続き的に生成されたロングテールシナリオから,名目シナリオのクローズドループシミュレーションで学習する。
我々の実験は、RTRがより現実的で一般化可能な交通シミュレーションポリシーを学習し、名目と長距離の両方のシナリオにおいて、人間ライクな運転と交通コンプライアンスのトレードオフを著しく改善することを示した。
さらに,予測モデルをトレーニングするためのデータ生成ツールとして使用する場合,学習したトラヒックポリシは,ベースライントラヒックエージェントと比較して,ダウンストリーム予測指標を大幅に改善する。
詳細はプロジェクトのWebサイトを参照してください。
関連論文リスト
- ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable [88.08120417169971]
機械学習に基づく自律運転システムは、現実世界のデータでは稀な安全クリティカルなシナリオで課題に直面していることが多い。
この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。
提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
論文 参考訳(メタデータ) (2024-09-12T08:26:33Z) - A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning [18.2541182874636]
現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。
我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
論文 参考訳(メタデータ) (2023-11-27T15:29:21Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Exploring the trade off between human driving imitation and safety for
traffic simulation [0.34410212782758043]
運転方針の学習において,人間の運転の模倣と安全維持との間にはトレードオフが存在することを示す。
両目的を協調的に改善する多目的学習アルゴリズム(MOPPO)を提案する。
論文 参考訳(メタデータ) (2022-08-09T14:30:19Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - Learning to Simulate on Sparse Trajectory Data [26.718807213824853]
本稿では,実世界のスパースデータから運転行動をシミュレートする学習問題に対処するための新しいフレームワーク imingail を提案する。
私たちの知る限りでは、行動学習問題に対するデータ疎結合問題に最初に取り組みます。
論文 参考訳(メタデータ) (2021-03-22T13:42:11Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Development of A Stochastic Traffic Environment with Generative
Time-Series Models for Improving Generalization Capabilities of Autonomous
Driving Agents [0.0]
我々は,実生活軌跡データに基づいてGAN(Generative Badrial Network)を訓練し,データ駆動交通シミュレータを開発した。
シミュレータは、車両間の実生活の交通相互作用に似たランダムな軌跡を生成する。
GANに基づく交通シミュレーターで訓練されたRLエージェントは、単純なルール駆動シミュレーターで訓練されたRLエージェントと比較して、より強力な一般化能力を有することを示す。
論文 参考訳(メタデータ) (2020-06-10T13:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。