論文の概要: Deep Surrogate Q-Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2010.11278v2
- Date: Thu, 17 Feb 2022 18:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 00:53:26.418918
- Title: Deep Surrogate Q-Learning for Autonomous Driving
- Title(参考訳): 自動運転のためのディープサロゲートQラーニング
- Authors: Maria Kalweit, Gabriel Kalweit, Moritz Werling, Joschka Boedecker
- Abstract要約: 本稿では,自律運転における車線変更行動学習のためのSurrogate Q-learningを提案する。
このアーキテクチャは、Scene-centric Experience Replayと呼ばれる新しいリプレイサンプリング技術に繋がることを示す。
また,本手法は実高Dデータセット上のポリシーを学習することで,実世界のRLシステムの適用性を向上させる。
- 参考スコア(独自算出の注目度): 17.30342128504405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Challenging problems of deep reinforcement learning systems with regard to
the application on real systems are their adaptivity to changing environments
and their efficiency w.r.t. computational resources and data. In the
application of learning lane-change behavior for autonomous driving, agents
have to deal with a varying number of surrounding vehicles. Furthermore, the
number of required transitions imposes a bottleneck, since test drivers cannot
perform an arbitrary amount of lane changes in the real world. In the
off-policy setting, additional information on solving the task can be gained by
observing actions from others. While in the classical RL setup this knowledge
remains unused, we use other drivers as surrogates to learn the agent's value
function more efficiently. We propose Surrogate Q-learning that deals with the
aforementioned problems and reduces the required driving time drastically. We
further propose an efficient implementation based on a permutation-equivariant
deep neural network architecture of the Q-function to estimate action-values
for a variable number of vehicles in sensor range. We show that the
architecture leads to a novel replay sampling technique we call Scene-centric
Experience Replay and evaluate the performance of Surrogate Q-learning and
Scene-centric Experience Replay in the open traffic simulator SUMO.
Additionally, we show that our methods enhance real-world applicability of RL
systems by learning policies on the real highD dataset.
- Abstract(参考訳): 実システムへの適用における深層強化学習システムの課題は,環境変化への適応性とw.r.t.計算資源とデータの有効性である。
自動運転の学習車線変更行動の適用においては、エージェントは周囲のさまざまな車両を扱う必要がある。
さらに、テストドライバは実世界で任意の数のレーン変更を実行できないため、必要なトランジションの数がボトルネックとなる。
政治外の環境では、他人の行動を観察することで、タスクの解決に関する追加情報を得ることができる。
古典的なRL設定では、この知識は使われていないが、エージェントの値関数をより効率的に学習するために、他のドライバを代理として使用する。
本稿では、上記の問題に対処し、必要な運転時間を劇的に短縮するSurrogate Q-learningを提案する。
さらに,q関数の置換同変ディープニューラルネットワークアーキテクチャに基づく効率的な実装を提案し,センサ範囲の可変車両の動作値の推定を行う。
オープントラヒックシミュレータsumoでは,このアーキテクチャにより,シーン中心体験リプレイと呼ばれる新たなリプレイサンプリング手法が実現され,サロゲートq学習とシーン中心体験リプレイのパフォーマンス評価が可能となった。
さらに,本手法は実高Dデータセット上のポリシーを学習することで,実世界のRLシステムの適用性を向上させる。
関連論文リスト
- Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Comprehensive Training and Evaluation on Deep Reinforcement Learning for
Automated Driving in Various Simulated Driving Maneuvers [0.4241054493737716]
本研究では、DQN(Deep Q-networks)とTRPO(Trust Region Policy Optimization)の2つのDRLアルゴリズムの実装、評価、比較を行う。
設計されたComplexRoads環境で訓練されたモデルは、他の運転操作にうまく適応でき、全体的な性能が期待できる。
論文 参考訳(メタデータ) (2023-06-20T11:41:01Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Discrete Control in Real-World Driving Environments using Deep
Reinforcement Learning [2.467408627377504]
本研究では,現実の環境をゲーム環境に移行させる,現実の運転環境におけるフレームワーク(知覚,計画,制御)を紹介する。
実環境における離散制御を学習し,実行するために,既存の強化学習(RL)アルゴリズムを多エージェント設定で提案する。
論文 参考訳(メタデータ) (2022-11-29T04:24:03Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Investigating Value of Curriculum Reinforcement Learning in Autonomous
Driving Under Diverse Road and Weather Conditions [0.0]
本稿では,自動運転アプリケーションにおけるカリキュラム強化学習の価値を検討する。
道路の複雑さや気象条件の異なる現実的な運転シミュレータで、複数の異なる運転シナリオを設定しました。
その結果、カリキュラムRLは、運転性能とサンプルの複雑さの両方の観点から、複雑な運転タスクで有意な利益を得ることができます。
論文 参考訳(メタデータ) (2021-03-14T12:05:05Z) - Hyperparameter Auto-tuning in Self-Supervised Robotic Learning [12.193817049957733]
不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。
自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。
本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
論文 参考訳(メタデータ) (2020-10-16T08:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。