論文の概要: Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks
- arxiv url: http://arxiv.org/abs/2401.14226v1
- Date: Thu, 25 Jan 2024 15:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:20:54.839380
- Title: Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks
- Title(参考訳): サブタスクの自動学習によるサンプル効率的な強化学習
- Authors: Shuai Han, Mehdi Dastani, Shihan Wang
- Abstract要約: サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
- 参考スコア(独自算出の注目度): 3.1594865504808944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving sample efficiency is central to Reinforcement Learning (RL),
especially in environments where the rewards are sparse. Some recent approaches
have proposed to specify reward functions as manually designed or learned
reward structures whose integrations in the RL algorithms are claimed to
significantly improve the learning efficiency. Manually designed reward
structures can suffer from inaccuracy and existing automatically learning
methods are often computationally intractable for complex tasks. The
integration of inaccurate or partial reward structures in RL algorithms fail to
learn optimal policies. In this work, we propose an RL algorithm that can
automatically structure the reward function for sample efficiency, given a set
of labels that signify subtasks. Given such minimal knowledge about the task,
we train a high-level policy that selects optimal sub-tasks in each state
together with a low-level policy that efficiently learns to complete each
sub-task. We evaluate our algorithm in a variety of sparse-reward environments.
The experiment results show that our approach significantly outperforms the
state-of-art baselines as the difficulty of the task increases.
- Abstract(参考訳): サンプル効率の向上は、特に報酬が不足している環境において、強化学習(rl)の中心である。
近年のいくつかのアプローチでは、RLアルゴリズムへの統合が学習効率を大幅に向上させると主張される報酬関数を手作業で設計または学習した報酬構造として指定する手法が提案されている。
手動で設計された報酬構造は不正確さに苦しめられ、既存の自動学習法は複雑なタスクでは計算が難しいことが多い。
RLアルゴリズムにおける不正確なあるいは部分的な報酬構造の統合は、最適なポリシーを学習できない。
本研究では,サブタスクを表わすラベルの集合を考えると,サンプル効率のために報酬関数を自動的に構成できるRLアルゴリズムを提案する。
このようなタスクに関する最小限の知識を前提として、各状態における最適なサブタスクを選択する高レベルポリシーと、各サブタスクの完了を効率的に学習する低レベルポリシーを訓練する。
我々はこのアルゴリズムを様々なスパースワード環境において評価する。
実験の結果,タスクの難易度が増大するにつれて,本手法は最先端のベースラインを著しく上回ることがわかった。
関連論文リスト
- Reward-Machine-Guided, Self-Paced Reinforcement Learning [30.42334205249944]
報奨機による自己評価強化学習アルゴリズムを開発した。
提案アルゴリズムは,既存のベースラインが意味のある進歩を達成できない場合でも,最適な動作を確実に達成する。
また、カリキュラムの長さを減らし、カリキュラム生成プロセスのばらつきを最大4分の1まで減らします。
論文 参考訳(メタデータ) (2023-05-25T22:13:37Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。