論文の概要: Exploration in Approximate Hyper-State Space for Meta Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.01062v3
- Date: Wed, 9 Jun 2021 21:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:23:54.609580
- Title: Exploration in Approximate Hyper-State Space for Meta Reinforcement
Learning
- Title(参考訳): メタ強化学習のための近似超状態空間の探索
- Authors: Luisa Zintgraf, Leo Feng, Cong Lu, Maximilian Igl, Kristian
Hartikainen, Katja Hofmann, Shimon Whiteson
- Abstract要約: 本稿では,メタトレーニングに新たな報酬ボーナスを応用して,近似超状態空間を探索するHyperXを提案する。
実験の結果,HyperXメタ学習はタスク探索に優れ,既存の手法よりも新しいタスクに適応できることがわかった。
- 参考スコア(独自算出の注目度): 60.1292055717823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To rapidly learn a new task, it is often essential for agents to explore
efficiently -- especially when performance matters from the first timestep. One
way to learn such behaviour is via meta-learning. Many existing methods however
rely on dense rewards for meta-training, and can fail catastrophically if the
rewards are sparse. Without a suitable reward signal, the need for exploration
during meta-training is exacerbated. To address this, we propose HyperX, which
uses novel reward bonuses for meta-training to explore in approximate
hyper-state space (where hyper-states represent the environment state and the
agent's task belief). We show empirically that HyperX meta-learns better
task-exploration and adapts more successfully to new tasks than existing
methods.
- Abstract(参考訳): 新しいタスクを迅速に学習するには、エージェントが効率的に探索することが不可欠であることが多い。
そのような振る舞いを学ぶ1つの方法はメタ学習である。
しかし、多くの既存の手法はメタトレーニングに高い報酬に依存しており、報酬が希薄であれば破滅的に失敗する可能性がある。
適切な報酬信号がなければ、メタトレーニング中の探索の必要性は悪化する。
そこで我々は,超状態が環境状態とエージェントのタスク信念を表わす)準状態空間を探索するために,メタトレーニングに新たな報酬ボーナスを用いるhyperxを提案する。
我々は,HyperXメタ学習がタスク探索に優れ,既存の手法よりも新しいタスクに適応できることを示す。
関連論文リスト
- First-Explore, then Exploit: Meta-Learning to Solve Hard Exploration-Exploitation Trade-Offs [2.0690113422225997]
First-Exploreは、広範囲のドメインで人間のような探索が可能なメタRLアルゴリズムを開発するための重要なステップである。
我々の方法であるFirst-Exploreは、2つのポリシーを学習することで制限を克服する。
論文 参考訳(メタデータ) (2023-07-05T13:20:21Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。