論文の概要: Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.03379v1
- Date: Mon, 6 May 2024 11:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:56:21.494945
- Title: Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning
- Title(参考訳): 強化学習における極端サンプルと実証効率の逆フォワード学習
- Authors: Stone Tao, Arth Shukla, Tse-kai Chan, Hao Su,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。
ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。
提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 17.092640837991883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) presents a promising framework to learn policies through environment interaction, but often requires an infeasible amount of interaction data to solve complex tasks from sparse rewards. One direction includes augmenting RL with offline data demonstrating desired tasks, but past work often require a lot of high-quality demonstration data that is difficult to obtain, especially for domains such as robotics. Our approach consists of a reverse curriculum followed by a forward curriculum. Unique to our approach compared to past work is the ability to efficiently leverage more than one demonstration via a per-demonstration reverse curriculum generated via state resets. The result of our reverse curriculum is an initial policy that performs well on a narrow initial state distribution and helps overcome difficult exploration problems. A forward curriculum is then used to accelerate the training of the initial policy to perform well on the full initial state distribution of the task and improve demonstration and sample efficiency. We show how the combination of a reverse curriculum and forward curriculum in our method, RFCL, enables significant improvements in demonstration and sample efficiency compared against various state-of-the-art learning-from-demonstration baselines, even solving previously unsolvable tasks that require high precision and control.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学習する有望なフレームワークを提供するが、スパース報酬から複雑なタスクを解決するために、多くの場合、実現不可能な量の相互作用データを必要とする。
ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、特にロボット工学のような分野において、取得が困難な高品質なデモデータを必要とすることが多い。
私たちのアプローチは、逆のカリキュラムと、前方のカリキュラムで構成されています。
過去の作業と比較して、我々のアプローチに共通しているのは、ステートリセットによって生成されるデモごとのリバースカリキュラムを通じて、複数のデモを効率的に活用できることです。
逆のカリキュラムの結果は、狭い初期状態分布でうまく機能し、困難な探索問題を克服するのに役立つ初期ポリシーである。
フォワードカリキュラムを使用して、初期方針の訓練を加速し、タスクの完全な初期状態分布を良好に実行し、実演とサンプル効率を改善する。
提案手法における逆カリキュラムと前方カリキュラムの組合せであるRFCLは,高度な精度と制御を必要とする未解決タスクを解くことさえも,様々な最先端の学習ベースラインと比較して,実演とサンプル効率を大幅に向上させることができることを示す。
関連論文リスト
- MILES: Making Imitation Learning Easy with Self-Supervision [12.314942459360605]
MILESは完全に自律的で自己管理型のデータ収集パラダイムである。
MILESは,1つの実演と1つの環境リセットから,効率的なポリシー学習を可能にする。
論文 参考訳(メタデータ) (2024-10-25T17:06:50Z) - Outcome-directed Reinforcement Learning by Uncertainty & Temporal
Distance-Aware Curriculum Goal Generation [29.155620517531656]
現在の強化学習(RL)は、望まれる結果や高い報奨がほとんど得られない挑戦的な探索問題の解決に苦しむことが多い。
両部マッチング問題を解くことにより,結果指向のRLに対する不確実性と時間的距離対応の目標生成手法を提案する。
カリキュラムの正確な校正ガイダンスを望ましい結果状態に提供できただけでなく、以前のカリキュラムRL法と比較して、サンプル効率と幾何学に依存しないカリキュラム目標の提案能力も大幅に向上した。
論文 参考訳(メタデータ) (2023-01-27T14:25:04Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。