論文の概要: Efficient Reinforcement Learning for Autonomous Driving with
Parameterized Skills and Priors
- arxiv url: http://arxiv.org/abs/2305.04412v1
- Date: Mon, 8 May 2023 01:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 16:05:03.827816
- Title: Efficient Reinforcement Learning for Autonomous Driving with
Parameterized Skills and Priors
- Title(参考訳): パラメタライズドスキルとプライオリティを用いた自律走行のための効率的な強化学習
- Authors: Letian Wang, Jie Liu, Hao Shao, Wenshuo Wang, Ruobing Chen, Yu Liu,
Steven L. Waslander
- Abstract要約: ASAP-RLは自律運転のための効率的な強化学習アルゴリズムである。
専門的なデモンストレーションを制御空間からスキル空間に変換するために,スキルパラメータ逆回復法を提案する。
本手法は, 単純かつスパースな報酬を付与した対話型高密度交通運転タスクにおいて, 提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 16.87227671645374
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: When autonomous vehicles are deployed on public roads, they will encounter
countless and diverse driving situations. Many manually designed driving
policies are difficult to scale to the real world. Fortunately, reinforcement
learning has shown great success in many tasks by automatic trial and error.
However, when it comes to autonomous driving in interactive dense traffic, RL
agents either fail to learn reasonable performance or necessitate a large
amount of data. Our insight is that when humans learn to drive, they will 1)
make decisions over the high-level skill space instead of the low-level control
space and 2) leverage expert prior knowledge rather than learning from scratch.
Inspired by this, we propose ASAP-RL, an efficient reinforcement learning
algorithm for autonomous driving that simultaneously leverages motion skills
and expert priors. We first parameterized motion skills, which are diverse
enough to cover various complex driving scenarios and situations. A skill
parameter inverse recovery method is proposed to convert expert demonstrations
from control space to skill space. A simple but effective double initialization
technique is proposed to leverage expert priors while bypassing the issue of
expert suboptimality and early performance degradation. We validate our
proposed method on interactive dense-traffic driving tasks given simple and
sparse rewards. Experimental results show that our method can lead to higher
learning efficiency and better driving performance relative to previous methods
that exploit skills and priors differently. Code is open-sourced to facilitate
further research.
- Abstract(参考訳): 自動運転車が公道に配備されると、無数の多様な運転状況に遭遇する。
手動で設計した多くの運転方針は、現実世界へのスケールが難しい。
幸運にも、強化学習は多くのタスクで自動試行とエラーによって大きな成功を収めている。
しかし、対話的な密集交通における自律運転に関しては、RLエージェントは適切なパフォーマンスを学ばず、大量のデータを必要とする。
我々の洞察は 人間が運転を学べば
1)低レベルな制御空間ではなく、高レベルなスキル空間を判断する。
2)スクラッチから学ぶのではなく、専門家の事前知識を活用する。
そこで本研究では,自律運転のための効率的な強化学習アルゴリズムASAP-RLを提案する。
まず、様々な複雑な運転シナリオや状況をカバーするのに十分な多様な動作スキルをパラメータ化した。
専門的なデモンストレーションを制御空間からスキル空間に変換するために,スキルパラメータ逆回復法を提案する。
専門家の準最適性や初期の性能劣化を回避しつつ、専門家の事前知識を活用するため、単純だが効果的な二重初期化手法を提案する。
提案手法は,単純かつスパースな報酬を与えられた対話型高密度走行タスクで検証する。
実験結果から,本手法は,従来の手法と比較して学習効率が向上し,運転性能が向上する可能性が示唆された。
さらなる研究を促進するために、コードはオープンソースである。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Scaling Is All You Need: Autonomous Driving with JAX-Accelerated Reinforcement Learning [9.25541290397848]
強化学習は、ビデオゲームのような複雑な領域で最高の人間よりも優れていることが実証されている。
自律運転のための大規模強化学習実験を行っている。
我々の最高の実行方針は、最先端の機械学習による自律運転のポリシーと比較して、運転進捗率を25%向上させながら、失敗率を64%削減します。
論文 参考訳(メタデータ) (2023-12-23T00:07:06Z) - A Language Agent for Autonomous Driving [31.359413767191608]
本稿では,人間のような知性を自律運転システムに統合するためのパラダイムシフトを提案する。
当社のアプローチはAgent-Driverと呼ばれ,汎用ツールライブラリを導入して,従来の自律走行パイプラインを変革する。
LLM(Large Language Models)によって駆動されるエージェントドライブには直感的な常識と堅牢な推論能力が備わっています。
論文 参考訳(メタデータ) (2023-11-17T18:59:56Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Comprehensive Training and Evaluation on Deep Reinforcement Learning for
Automated Driving in Various Simulated Driving Maneuvers [0.4241054493737716]
本研究では、DQN(Deep Q-networks)とTRPO(Trust Region Policy Optimization)の2つのDRLアルゴリズムの実装、評価、比較を行う。
設計されたComplexRoads環境で訓練されたモデルは、他の運転操作にうまく適応でき、全体的な性能が期待できる。
論文 参考訳(メタデータ) (2023-06-20T11:41:01Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Automated Lane Change Strategy using Proximal Policy Optimization-based
Deep Reinforcement Learning [10.909595997847443]
レーン変更操作は、一般に、特定のルーティング計画に従い、遅い車両を乗り越え、前方のマージレーンに適応するなど、ドライバによって実行される。
本研究では,近位政策最適化に基づく深層強化学習を用いた自動車線変更戦略を提案する。
訓練されたエージェントは、車線変更決定を行うためのスムーズで安全で効率的な運転ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2020-02-07T08:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。