論文の概要: Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge
- arxiv url: http://arxiv.org/abs/2311.09195v2
- Date: Sun, 18 Feb 2024 12:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:43:51.518442
- Title: Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge
- Title(参考訳): タスク特化知識のない自己強化学習のための自己監督型カリキュラム生成
- Authors: Sang-Hyun Lee and Seung-Woo Seo
- Abstract要約: 現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.168236693829783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A significant bottleneck in applying current reinforcement learning
algorithms to real-world scenarios is the need to reset the environment between
every episode. This reset process demands substantial human intervention,
making it difficult for the agent to learn continuously and autonomously.
Several recent works have introduced autonomous reinforcement learning (ARL)
algorithms that generate curricula for jointly training reset and forward
policies. While their curricula can reduce the number of required manual resets
by taking into account the agent's learning progress, they rely on
task-specific knowledge, such as predefined initial states or reset reward
functions. In this paper, we propose a novel ARL algorithm that can generate a
curriculum adaptive to the agent's learning progress without task-specific
knowledge. Our curriculum empowers the agent to autonomously reset to diverse
and informative initial states. To achieve this, we introduce a success
discriminator that estimates the success probability from each initial state
when the agent follows the forward policy. The success discriminator is trained
with relabeled transitions in a self-supervised manner. Our experimental
results demonstrate that our ARL algorithm can generate an adaptive curriculum
and enable the agent to efficiently bootstrap to solve sparse-reward maze
navigation and manipulation tasks, outperforming baselines with significantly
fewer manual resets.
- Abstract(参考訳): 現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
このリセットプロセスは人間の介入を必要とするため、エージェントが継続的に自律的に学習することは困難である。
いくつかの最近の研究は、リセットとフォワードを共同でトレーニングするためのカリキュラムを生成する自律強化学習(ARL)アルゴリズムを導入している。
彼らのカリキュラムは、エージェントの学習の進捗を考慮して、必要な手動リセットの数を減らすことができるが、事前定義された初期状態やリセット報酬関数のようなタスク固有の知識に依存している。
本稿では,タスク固有の知識を使わずに,エージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
我々のカリキュラムは、エージェントが多様かつ情報的な初期状態に自律的にリセットする権限を与えます。
これを実現するために,エージェントがフォワードポリシーに従うと,各初期状態から成功確率を推定する成功判別器を導入する。
成功判別器は自己監督的な方法で可逆遷移で訓練される。
実験の結果, arlアルゴリズムは適応型カリキュラムを生成でき, エージェントのブートストラップにより, スパース・リワードの迷路ナビゲーションや操作タスクを効率的に解くことができ, 手動リセットの少ないベースラインよりも優れていた。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Reward-Machine-Guided, Self-Paced Reinforcement Learning [30.42334205249944]
報奨機による自己評価強化学習アルゴリズムを開発した。
提案アルゴリズムは,既存のベースラインが意味のある進歩を達成できない場合でも,最適な動作を確実に達成する。
また、カリキュラムの長さを減らし、カリキュラム生成プロセスのばらつきを最大4分の1まで減らします。
論文 参考訳(メタデータ) (2023-05-25T22:13:37Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Automating Reinforcement Learning with Example-based Resets [19.86233948960312]
既存の強化学習アルゴリズムは、エージェントが各エピソードの最後に固定された初期状態分布にリセットするエピソード設定を仮定する。
本稿では,自己指導型リセット学習を行うエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。
シミュレーションおよび実世界の連続制御タスクをスクラッチから学習するために本手法を適用し,手動リセットを減らすために,リセットエージェントがうまく学習できることを実証する。
論文 参考訳(メタデータ) (2022-04-05T08:12:42Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。