論文の概要: Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies
- arxiv url: http://arxiv.org/abs/2001.00248v2
- Date: Tue, 14 Apr 2020 01:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 09:11:55.115304
- Title: Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies
- Title(参考訳): サブタスク依存の自律推論によるメタ強化学習
- Authors: Sungryull Sohn, Hyunjae Woo, Jongwook Choi, Honglak Lee
- Abstract要約: 本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
- 参考スコア(独自算出の注目度): 57.27944046925876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and address a novel few-shot RL problem, where a task is
characterized by a subtask graph which describes a set of subtasks and their
dependencies that are unknown to the agent. The agent needs to quickly adapt to
the task over few episodes during adaptation phase to maximize the return in
the test phase. Instead of directly learning a meta-policy, we develop a
Meta-learner with Subtask Graph Inference(MSGI), which infers the latent
parameter of the task by interacting with the environment and maximizes the
return given the latent parameter. To facilitate learning, we adopt an
intrinsic reward inspired by upper confidence bound (UCB) that encourages
efficient exploration. Our experiment results on two grid-world domains and
StarCraft II environments show that the proposed method is able to accurately
infer the latent task parameter, and to adapt more efficiently than existing
meta RL and hierarchical RL methods.
- Abstract(参考訳): 本稿では,タスクがサブタスクの集合とエージェントに未知な依存関係を記述するサブタスクグラフによって特徴付けられる,新しい数ショットRL問題を提案し,対処する。
エージェントは、テストフェーズでのリターンを最大化するために、適応フェーズ中の数回にわたってタスクに迅速に適応する必要があります。
メタポリシーを直接学習する代わりに,Subtask Graph Inference(MSGI)を用いたメタラーナーを開発し,環境と相互作用してタスクの潜時パラメータを推論し,潜時パラメータが与えられたリターンを最大化する。
学習を容易にするために,我々は,高信頼境界(UCB)にインスパイアされた本質的な報酬を採用する。
2つのグリッドワールド領域とStarCraft II環境における実験結果から,提案手法は既存のメタRL法や階層RL法よりも高い効率で遅延タスクパラメータを正確に推定できることが示された。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。