論文の概要: Estimating Disentangled Belief about Hidden State and Hidden Task for
Meta-RL
- arxiv url: http://arxiv.org/abs/2105.06660v1
- Date: Fri, 14 May 2021 06:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:53:40.848679
- Title: Estimating Disentangled Belief about Hidden State and Hidden Task for
Meta-RL
- Title(参考訳): メタRLにおける隠れ状態と隠れタスクの遠絡信念の推定
- Authors: Kei Akuzawa, Yusuke Iwasawa, Yutaka Matsuo
- Abstract要約: メタ強化学習(メタRL)アルゴリズムにより、自律エージェントは少量の経験から新しいタスクを適応できます。
meta-rlでは、現在のタスクの仕様(報酬関数など)がエージェントから隠されている。
タスクと状態に対する偏りのある信念を推定し、タスクと状態が各タスクのグローバルおよびローカルの特徴とみなすことができるという帰納バイアスを活用します。
- 参考スコア(独自算出の注目度): 27.78147889149745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is considerable interest in designing meta-reinforcement learning
(meta-RL) algorithms, which enable autonomous agents to adapt new tasks from
small amount of experience. In meta-RL, the specification (such as reward
function) of current task is hidden from the agent. In addition, states are
hidden within each task owing to sensor noise or limitations in realistic
environments. Therefore, the meta-RL agent faces the challenge of specifying
both the hidden task and states based on small amount of experience. To address
this, we propose estimating disentangled belief about task and states,
leveraging an inductive bias that the task and states can be regarded as global
and local features of each task. Specifically, we train a hierarchical
state-space model (HSSM) parameterized by deep neural networks as an
environment model, whose global and local latent variables correspond to task
and states, respectively. Because the HSSM does not allow analytical
computation of posterior distribution, i.e., belief, we employ amortized
inference to approximate it. After the belief is obtained, we can augment
observations of a model-free policy with the belief to efficiently train the
policy. Moreover, because task and state information are factorized and
interpretable, the downstream policy training is facilitated compared with the
prior methods that did not consider the hierarchical nature. Empirical
validations on a GridWorld environment confirm that the HSSM can separate the
hidden task and states information. Then, we compare the meta-RL agent with the
HSSM to prior meta-RL methods in MuJoCo environments, and confirm that our
agent requires less training data and reaches higher final performance.
- Abstract(参考訳): meta-reinforcement learning (meta-rl)アルゴリズムの設計にはかなりの関心がある。
meta-rlでは、現在のタスクの仕様(報酬関数など)がエージェントから隠されている。
さらに、センサーノイズや現実的な環境の制限により、各タスクに状態が隠されている。
そのため、メタRLエージェントは、少ない経験量に基づいて隠れたタスクと状態の両方を指定するという課題に直面している。
そこで本研究では,タスクと状態がグローバルかつ局所的な特徴と見なせる帰納的バイアスを生かして,タスクと状態に関する不整合信念を推定することを提案する。
具体的には,グローバル変数とローカル変数がそれぞれタスクと状態に対応する環境モデルとして,ディープニューラルネットワークによってパラメータ化された階層的状態空間モデル(HSSM)を訓練する。
hssmは後方分布の解析的な計算、すなわち信念を許さないので、それを近似するために償却推論を用いる。
信念が得られたら、モデルフリー政策の観察を、効率的に政策を訓練する信念で強化することができる。
また、タスク情報と状態情報は因子化・解釈可能であるため、階層的性質を考慮しない先行手法と比較して下流政策訓練が容易となる。
GridWorld環境における実証的な検証は、HSSMが隠されたタスクを分離し、情報を記述できることを確認する。
次に,MuJoCo環境におけるメタRLエージェントとHSSMを比較し,トレーニングデータが少ないこと,最終性能が高いことを確認する。
関連論文リスト
- Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - An Information-Theoretic Analysis of the Impact of Task Similarity on
Meta-Learning [44.320945743871285]
メタ一般化ギャップの平均絶対値に対する新しい情報理論的境界を提示する。
私たちの境界は、タスク関連性、タスクの数、およびタスクごとのデータサンプルの数がメタ一般化ギャップに与える影響を明示的に捉えます。
論文 参考訳(メタデータ) (2021-01-21T01:38:16Z) - Transfer Meta-Learning: Information-Theoretic Bounds and Information
Meta-Risk Minimization [47.7605527786164]
メタ学習は、複数の関連するタスクからのデータを観察し、誘導バイアスを自動的に推論する。
本稿では,メタテスト中に目標タスク環境からタスクを抽出するトランスファーメタラーニングの問題を紹介する。
論文 参考訳(メタデータ) (2020-11-04T12:55:43Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。