論文の概要: Embedding Synthetic Off-Policy Experience for Autonomous Driving via
Zero-Shot Curricula
- arxiv url: http://arxiv.org/abs/2212.01375v1
- Date: Fri, 2 Dec 2022 18:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:20:56.951146
- Title: Embedding Synthetic Off-Policy Experience for Autonomous Driving via
Zero-Shot Curricula
- Title(参考訳): ゼロショット・キュリキュラによる自動走行のための合成オフポリティ体験の埋め込み
- Authors: Eli Bronstein, Sirish Srinivasan, Supratik Paul, Aman Sinha, Matthew
O'Kelly, Payam Nikdel, Shimon Whiteson
- Abstract要約: 我々は、データの10%サブセットのみを使用してトレーニングされたエージェントが、データセット全体に対してトレーニングされたエージェントと同様に動作することを示す。
次に、この難易度スコアをゼロショット転送に使用して、模倣学習に基づく計画エージェントのカリキュラムを生成することを実証する。
- 参考スコア(独自算出の注目度): 48.58973705935691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ML-based motion planning is a promising approach to produce agents that
exhibit complex behaviors, and automatically adapt to novel environments. In
the context of autonomous driving, it is common to treat all available training
data equally. However, this approach produces agents that do not perform
robustly in safety-critical settings, an issue that cannot be addressed by
simply adding more data to the training set - we show that an agent trained
using only a 10% subset of the data performs just as well as an agent trained
on the entire dataset. We present a method to predict the inherent difficulty
of a driving situation given data collected from a fleet of autonomous vehicles
deployed on public roads. We then demonstrate that this difficulty score can be
used in a zero-shot transfer to generate curricula for an imitation-learning
based planning agent. Compared to training on the entire unbiased training
dataset, we show that prioritizing difficult driving scenarios both reduces
collisions by 15% and increases route adherence by 14% in closed-loop
evaluation, all while using only 10% of the training data.
- Abstract(参考訳): MLベースのモーションプランニングは、複雑な振る舞いを示し、新しい環境に自動的に適応するエージェントを作成するための有望なアプローチである。
自動運転の文脈では、利用可能なすべてのトレーニングデータを平等に扱うことが一般的である。
しかしながら、このアプローチでは、安全クリティカルな設定で堅牢に動作しないエージェントを生成するため、トレーニングセットにより多くのデータを追加するだけでは対処できない問題が発生します。
本研究では,公道に配備された自動運転車群から収集したデータをもとに,運転状況の難しさを予測する手法を提案する。
次に,この難易度スコアをゼロショット転送に使用して,模倣学習に基づく計画エージェントのカリキュラムを生成することを実証する。
非バイアスのトレーニングデータセット全体のトレーニングと比較して、難しい運転シナリオの優先順位付けは衝突を15%減らし、クローズドループ評価においてルートアテンデンスを14%増加させ、トレーニングデータの10%しか使用していないことを示す。
関連論文リスト
- Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - Safe Real-World Autonomous Driving by Learning to Predict and Plan with
a Mixture of Experts [3.2230833657560503]
我々は、自動運転車と他の道路エージェントの両方の将来の軌道にまたがる分布について提案する。
推論中は、安全性と予測確率を考慮したコストを最小限に抑える計画軌道を選択する。
都市部の公道上での自動運転車の展開に成功し、快適さを損なうことなく安全に運転できることを確認しました。
論文 参考訳(メタデータ) (2022-11-03T20:16:24Z) - DeFIX: Detecting and Fixing Failure Scenarios with Reinforcement
Learning in Imitation Learning Based Autonomous Driving [0.0]
本稿では,ILエージェントの検出とFIX障害に対する強化学習(RL)に基づく方法論を提案する。
DeFIXは継続的学習フレームワークで、障害シナリオの抽出とRLエージェントのトレーニングを無限ループで実行する。
ILエージェントの故障シナリオを訓練したRLエージェントが1つあれば、DeFIX法は競争力があるか、最先端のILおよびRLベースの自律都市運転ベンチマークより優れていることが示されている。
論文 参考訳(メタデータ) (2022-10-29T10:58:43Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Optimizing Trajectories for Highway Driving with Offline Reinforcement
Learning [11.970409518725491]
自律運転に対する強化学習に基づくアプローチを提案する。
我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。
ランダムに収集されたデータを持つオフライントレーニングエージェントが、望ましい速度に可能な限り近い速度で、他のエージェントよりも優れた速度で、スムーズに駆動することを学ぶことを実証します。
論文 参考訳(メタデータ) (2022-03-21T13:13:08Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - Meta Reinforcement Learning-Based Lane Change Strategy for Autonomous
Vehicles [11.180588185127892]
教師付き学習アルゴリズムは、大量のラベル付きデータをトレーニングすることで、新しい環境に一般化することができる。
しばしば、新しい環境ごとに十分なデータを得るために、実用的または費用を抑えることができる。
エージェントの一般化能力を向上させるメタ強化学習(MRL)法を提案する。
論文 参考訳(メタデータ) (2020-08-28T02:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。