論文の概要: GRI: General Reinforced Imitation and its Application to Vision-Based
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2111.08575v1
- Date: Tue, 16 Nov 2021 15:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:20:54.791928
- Title: GRI: General Reinforced Imitation and its Application to Vision-Based
Autonomous Driving
- Title(参考訳): GRI:一般強化模倣と視覚に基づく自律運転への応用
- Authors: Raphael Chekroun, Marin Toromanoff, Sascha Hornauer, Fabien Moutarde
- Abstract要約: General Reinforced Imitation (GRI)は、探索と専門家データから得られる利点を組み合わせた新しい手法である。
提案手法は,都市環境における視覚に基づく自動運転の大幅な改善を可能にすることを示す。
- 参考スコア(独自算出の注目度): 9.030769176986057
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep reinforcement learning (DRL) has been demonstrated to be effective for
several complex decision-making applications such as autonomous driving and
robotics. However, DRL is notoriously limited by its high sample complexity and
its lack of stability. Prior knowledge, e.g. as expert demonstrations, is often
available but challenging to leverage to mitigate these issues. In this paper,
we propose General Reinforced Imitation (GRI), a novel method which combines
benefits from exploration and expert data and is straightforward to implement
over any off-policy RL algorithm. We make one simplifying hypothesis: expert
demonstrations can be seen as perfect data whose underlying policy gets a
constant high reward. Based on this assumption, GRI introduces the notion of
offline demonstration agents. This agent sends expert data which are processed
both concurrently and indistinguishably with the experiences coming from the
online RL exploration agent. We show that our approach enables major
improvements on vision-based autonomous driving in urban environments. We
further validate the GRI method on Mujoco continuous control tasks with
different off-policy RL algorithms. Our method ranked first on the CARLA
Leaderboard and outperforms World on Rails, the previous state-of-the-art, by
17%.
- Abstract(参考訳): 深部強化学習(DRL)は、自律運転やロボット工学などの複雑な意思決定アプリケーションに有効であることが示されている。
しかし、DRLは高いサンプルの複雑さと安定性の欠如により制限されている。
事前知識、例えば専門家のデモンストレーションは、しばしば利用可能であるが、これらの問題を解決するために活用するのが困難である。
本稿では,探索データと専門家データを組み合わせた新しい手法であるGeneral Reinforced Imitation (GRI)を提案する。
専門家によるデモンストレーションは、基盤となるポリシーが常に高い報酬を得る完璧なデータと見なすことができます。
この仮定に基づいて、GRIはオフラインデモエージェントの概念を導入している。
本発明のエージェントは、オンラインRL探索エージェントから得られる経験と並行して処理される専門家データを送信する。
提案手法は,都市環境における視覚に基づく自動運転に大きな改善をもたらすことを示す。
さらに、異なるオフポリチィRLアルゴリズムを用いて、Mujoco連続制御タスクのGRI法を検証する。
我々の手法はCARLA Leaderboardでトップにランクインし、以前の最先端であるWorld on Railsを17%上回りました。
関連論文リスト
- Privileged to Predicted: Towards Sensorimotor Reinforcement Learning for
Urban Driving [0.0]
強化学習(RL)は、専門家の監督を必要とせず、運転における人間のパフォーマンスを上回る可能性がある。
センサデータからの特権表現を近似するために,視覚に基づくディープラーニングモデルを提案する。
我々は、自動運転におけるRLにおける状態表現の重要性と、将来の研究における未解決課題の指摘に光を当てた。
論文 参考訳(メタデータ) (2023-09-18T13:34:41Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - DriverGym: Democratising Reinforcement Learning for Autonomous Driving [75.91049219123899]
本稿では,自律運転のための強化学習アルゴリズムを開発するオープンソース環境であるDeadGymを提案する。
DriverGymは1000時間以上の専門家ログデータへのアクセスを提供し、リアクティブおよびデータ駆動エージェントの動作をサポートする。
広範かつフレキシブルなクローズループ評価プロトコルを用いて,実世界のデータ上でRLポリシーの性能を容易に検証できる。
論文 参考訳(メタデータ) (2021-11-12T11:47:08Z) - WAD: A Deep Reinforcement Learning Agent for Urban Autonomous Driving [8.401473551081747]
本稿では,DRL駆動型ウォッチ・アンド・ドライブ(WAD)エージェントをエンド・ツー・エンドの都市自動運転に適用する。
この研究は、最近の進歩により、CARLAの高次元空間における重要な物体や状態を検出し、それらから潜伏状態を取り出すことを目的としている。
我々の新しいアプローチは、少ないリソース、異なる運転タスクのステップバイステップ学習、ハードエピソード終了ポリシー、報酬メカニズムを利用して、エージェントは全ての運転タスクで100%の成功率を達成することができた。
論文 参考訳(メタデータ) (2021-08-27T06:48:31Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - GDI: Rethinking What Makes Reinforcement Learning Different From
Supervised Learning [8.755783981297396]
我々は、一般化政策イテレーション(GPI)と呼ばれるRLの基本パラダイムを、一般化データ分散イテレーション(GDI)と呼ばれるより一般的なバージョンに拡張する。
提案アルゴリズムは, 平均正規化スコア(HNS)9620.98%, 中央値HNS1146.39%, HWRB22を200フレームのトレーニングフレームで達成した。
論文 参考訳(メタデータ) (2021-06-11T08:31:12Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。