論文の概要: Offline Meta Learning of Exploration
- arxiv url: http://arxiv.org/abs/2008.02598v3
- Date: Fri, 12 Feb 2021 08:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:28:05.234283
- Title: Offline Meta Learning of Exploration
- Title(参考訳): 探索のオフラインメタ学習
- Authors: Ron Dorfman, Idan Shenfeld, Aviv Tamar
- Abstract要約: 我々は、ベイズ RL (BRL) のビューを取得し、オフラインデータからベイズ最適化ポリシーを学習する。
本研究では,適応型ニューラル信念推定に基づく探索戦略の立案を学習するオフポリチックBRL法を開発した。
我々はこの問題を特徴付け、データ収集と修正手順による解決を提案する。
- 参考スコア(独自算出の注目度): 19.172298978914597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider the following instance of the Offline Meta Reinforcement Learning
(OMRL) problem: given the complete training logs of $N$ conventional RL agents,
trained on $N$ different tasks, design a meta-agent that can quickly maximize
reward in a new, unseen task from the same task distribution. In particular,
while each conventional RL agent explored and exploited its own different task,
the meta-agent must identify regularities in the data that lead to effective
exploration/exploitation in the unseen task. Here, we take a Bayesian RL (BRL)
view, and seek to learn a Bayes-optimal policy from the offline data. Building
on the recent VariBAD BRL approach, we develop an off-policy BRL method that
learns to plan an exploration strategy based on an adaptive neural belief
estimate. However, learning to infer such a belief from offline data brings a
new identifiability issue we term MDP ambiguity. We characterize the problem,
and suggest resolutions via data collection and modification procedures.
Finally, we evaluate our framework on a diverse set of domains, including
difficult sparse reward tasks, and demonstrate learning of effective
exploration behavior that is qualitatively different from the exploration used
by any RL agent in the data.
- Abstract(参考訳): Offline Meta Reinforcement Learning (OMRL) 問題:$N$の通常のRLエージェントの完全なトレーニングログ、$N$の異なるタスクでトレーニングされたメタエージェントを与えられた場合、同じタスクディストリビューションから、新しい、目に見えないタスクですぐに報酬を最大化できるメタエージェントを設計する。
特に、従来のRLエージェントがそれぞれ異なるタスクを探索し、活用する一方で、メタエージェントはデータ内の規則性を識別する必要がある。
ここでは、ベイズ RL (BRL) のビューを取得し、オフラインデータからベイズ最適化ポリシーを学習する。
近年のVaribad BRLアプローチに基づいて,適応的ニューラル信念推定に基づく探索戦略の立案を学習するオフポリチックBRL法を開発した。
しかし、そのような信念をオフラインデータから推測する学習は、MDP曖昧さと呼ばれる新しい識別可能性の問題をもたらす。
この問題を特徴付け,データ収集と修正手順による解決を提案する。
最後に,難解な報酬タスクを含む多様なドメイン上でのフレームワークの評価を行い,データ内の任意のrlエージェントによる探索と質的に異なる効果的な探索行動の学習を実証する。
関連論文リスト
- RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。
ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。
ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-06T05:51:38Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。