論文の概要: Discovery of Options via Meta-Learned Subgoals
- arxiv url: http://arxiv.org/abs/2102.06741v1
- Date: Fri, 12 Feb 2021 19:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:12:08.711626
- Title: Discovery of Options via Meta-Learned Subgoals
- Title(参考訳): meta-learned subgoalsによるオプションの発見
- Authors: Vivek Veeriah, Tom Zahavy, Matteo Hessel, Zhongwen Xu, Junhyuk Oh,
Iurii Kemaev, Hado van Hasselt, David Silver, Satinder Singh
- Abstract要約: オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
- 参考スコア(独自算出の注目度): 59.2160583043938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal abstractions in the form of options have been shown to help
reinforcement learning (RL) agents learn faster. However, despite prior work on
this topic, the problem of discovering options through interaction with an
environment remains a challenge. In this paper, we introduce a novel
meta-gradient approach for discovering useful options in multi-task RL
environments. Our approach is based on a manager-worker decomposition of the RL
agent, in which a manager maximises rewards from the environment by learning a
task-dependent policy over both a set of task-independent discovered-options
and primitive actions. The option-reward and termination functions that define
a subgoal for each option are parameterised as neural networks and trained via
meta-gradients to maximise their usefulness. Empirical analysis on gridworld
and DeepMind Lab tasks show that: (1) our approach can discover meaningful and
diverse temporally-extended options in multi-task RL domains, (2) the
discovered options are frequently used by the agent while learning to solve the
training tasks, and (3) that the discovered options help a randomly initialised
manager learn faster in completely new tasks.
- Abstract(参考訳): オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
しかしながら、このトピックに関する以前の取り組みにもかかわらず、環境とのインタラクションを通じて選択肢を見つける問題は依然として課題である。
本稿では,マルチタスクRL環境で有用な選択肢を発見するための新しいメタグラデーション手法を提案する。
私たちのアプローチは、RLエージェントのマネージャ-ワーカーの分解に基づいており、マネージャはタスクに依存しない発見オプションとプリミティブアクションの両方でタスク依存ポリシーを学び、環境からの報酬を最大化します。
各オプションのサブゴールを定義するoption-reward関数とterminate関数はニューラルネットワークとしてパラメータ化され、その有用性を最大化するためにメタ勾配を通じてトレーニングされる。
グリッドワールドとDeepMind Labタスクに関する実証分析では,(1)マルチタスクRLドメインにおける有意義で多様な時間的拡張オプションを発見できる,(2)トレーニングタスクの学習中にエージェントが頻繁に使用する,(3)ランダムに初期化したマネージャがまったく新しいタスクでより早く学習できる,といったことが示されている。
関連論文リスト
- Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Matching options to tasks using Option-Indexed Hierarchical
Reinforcement Learning [20.85397773933171]
階層型学習(OI-HRL)のための新しいオプションインデックス化手法を提案する。
これにより、テスト時にゼロショットの一般化において、事前訓練されたオプションの大規模なライブラリを効果的に再利用できる。
我々は,一連のHRL問題に対して,選択肢や環境の表現を学習するメタ学習ループを開発する。
論文 参考訳(メタデータ) (2022-06-12T14:39:02Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。