論文の概要: Learning from Demonstration without Demonstrations
- arxiv url: http://arxiv.org/abs/2106.09203v1
- Date: Thu, 17 Jun 2021 01:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 06:10:26.316289
- Title: Learning from Demonstration without Demonstrations
- Title(参考訳): デモンストレーションなしでデモから学ぶ
- Authors: Tom Blau, Gilad Francis, Philippe Morere
- Abstract要約: 本稿では,専門家にアクセスせずにデモンストレーションを自動的に発見する手法として,実証発見のための確率的計画法(P2D2)を提案する。
本研究では,探索問題として実演の発見を定式化し,高速探索型ランダムツリーなどの広く利用されている計画アルゴリズムを活用して,実演軌跡の探索を行う。
本手法は,古典的かつ本質的な探査RL技術よりも,古典的な制御やロボット工学のタスクに優れることを示す。
- 参考スコア(独自算出の注目度): 5.027571997864707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art reinforcement learning (RL) algorithms suffer from high
sample complexity, particularly in the sparse reward case. A popular strategy
for mitigating this problem is to learn control policies by imitating a set of
expert demonstrations. The drawback of such approaches is that an expert needs
to produce demonstrations, which may be costly in practice. To address this
shortcoming, we propose Probabilistic Planning for Demonstration Discovery
(P2D2), a technique for automatically discovering demonstrations without access
to an expert. We formulate discovering demonstrations as a search problem and
leverage widely-used planning algorithms such as Rapidly-exploring Random Tree
to find demonstration trajectories. These demonstrations are used to initialize
a policy, then refined by a generic RL algorithm. We provide theoretical
guarantees of P2D2 finding successful trajectories, as well as bounds for its
sampling complexity. We experimentally demonstrate the method outperforms
classic and intrinsic exploration RL techniques in a range of classic control
and robotics tasks, requiring only a fraction of exploration samples and
achieving better asymptotic performance.
- Abstract(参考訳): 最先端強化学習(RL)アルゴリズムは、特にスパース報酬の場合、高いサンプリング複雑性に悩まされる。
この問題を緩和するための一般的な戦略は、一連の専門家のデモを模倣して制御ポリシーを学ぶことである。
このようなアプローチの欠点は、専門家がデモを作成する必要があることだ。
この欠点に対処するために,専門家にアクセスせずにデモンストレーションを自動的に発見する手法であるP2D2を提案する。
探索問題として探索実験を定式化し,素早い探索確率木などの計画アルゴリズムを活用し,実演軌跡を探索する。
これらのデモはポリシーの初期化に使用され、その後汎用RLアルゴリズムによって洗練される。
我々は,P2D2が軌道上で成功したことの理論的保証と,サンプリング複雑性の限界を提供する。
本手法は,古典的および内在的な探索rl技術を,従来の制御とロボット工学のタスクで上回っており,探索サンプルのほんの一部しか必要とせず,漸近的性能が向上している。
関連論文リスト
- Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - Reinforcement Learning with Probabilistically Complete Exploration [27.785017885906313]
素早いランダム探索型強化学習(R3L)を提案する。
探索問題を探索問題として定式化し、初期解を見つけるために広く利用されている計画アルゴリズムを活用する。
本手法を実験的に実証し,少数の探査サンプルを必要とせず,性能が向上した。
論文 参考訳(メタデータ) (2020-01-20T02:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。