論文の概要: Meta-Gradient Reinforcement Learning with an Objective Discovered Online
- arxiv url: http://arxiv.org/abs/2007.08433v1
- Date: Thu, 16 Jul 2020 16:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 21:46:27.477060
- Title: Meta-Gradient Reinforcement Learning with an Objective Discovered Online
- Title(参考訳): オブジェクト指向オンラインによるメタグラディエント強化学習
- Authors: Zhongwen Xu, Hado van Hasselt, Matteo Hessel, Junhyuk Oh, Satinder
Singh, David Silver
- Abstract要約: 本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
- 参考スコア(独自算出の注目度): 54.15180335046361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning includes a broad family of algorithms that
parameterise an internal representation, such as a value function or policy, by
a deep neural network. Each algorithm optimises its parameters with respect to
an objective, such as Q-learning or policy gradient, that defines its
semantics. In this work, we propose an algorithm based on meta-gradient descent
that discovers its own objective, flexibly parameterised by a deep neural
network, solely from interactive experience with its environment. Over time,
this allows the agent to learn how to learn increasingly effectively.
Furthermore, because the objective is discovered online, it can adapt to
changes over time. We demonstrate that the algorithm discovers how to address
several important issues in RL, such as bootstrapping, non-stationarity, and
off-policy learning. On the Atari Learning Environment, the meta-gradient
algorithm adapts over time to learn with greater efficiency, eventually
outperforming the median score of a strong actor-critic baseline.
- Abstract(参考訳): 深層強化学習は、ディープニューラルネットワークによる値関数やポリシーなどの内部表現をパラメータ化する幅広いアルゴリズム群を含んでいる。
各アルゴリズムは、そのセマンティクスを定義するQ学習やポリシー勾配といった目的に対してパラメータを最適化する。
本研究では,その環境との対話的体験のみから,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
時間が経つにつれ、エージェントはより効果的に学習する方法を学ぶことができます。
さらに、目的がオンラインで発見されるため、時間とともに変化に適応できる。
このアルゴリズムは,ブートストラップ,非定常性,非政治学習など,RLにおけるいくつかの重要な問題に対処する方法を発見する。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応し、より高い効率で学習し、最終的には強いアクター批判ベースラインの中央値よりも優れている。
関連論文リスト
- Discovering Temporally-Aware Reinforcement Learning Algorithms [42.016150906831776]
既存の2つの目的発見アプローチに簡単な拡張を提案する。
一般的に使用されるメタ段階的アプローチは適応的目的関数の発見に失敗する。
論文 参考訳(メタデータ) (2024-02-08T17:07:42Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Bootstrapped Meta-Learning [48.017607959109924]
本稿では,メタ学習者が自らを教えることによって,メタ最適化問題に挑戦するアルゴリズムを提案する。
アルゴリズムはまずメタラーナーからターゲットをブートストラップし、選択した(擬似)測度の下でそのターゲットまでの距離を最小化することでメタラーナーを最適化する。
我々は、Atari ALEベンチマークでモデルフリーエージェントの新たな最先端技術を実現し、数ショットの学習においてMAMLを改善し、我々のアプローチがいかに新しい可能性を開くかを実証する。
論文 参考訳(メタデータ) (2021-09-09T18:29:05Z) - A contrastive rule for meta-learning [1.3124513975412255]
メタ学習アルゴリズムは、一連のタスクに存在する正規性を活用して、補助学習プロセスのパフォーマンスを高速化し改善する。
平衡伝播に基づく勾配に基づくメタラーニングアルゴリズムを提案する。
我々は、その性能に関する理論的境界を確立し、標準ベンチマークとニューラルネットワークアーキテクチャのセットで実験を行う。
論文 参考訳(メタデータ) (2021-04-04T19:45:41Z) - Online Structured Meta-learning [137.48138166279313]
現在のオンラインメタ学習アルゴリズムは、グローバルに共有されたメタラーナーを学ぶために限られている。
この制限を克服するオンライン構造化メタラーニング(OSML)フレームワークを提案する。
3つのデータセットの実験は、提案フレームワークの有効性と解釈可能性を示している。
論文 参考訳(メタデータ) (2020-10-22T09:10:31Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Evolving Inborn Knowledge For Fast Adaptation in Dynamic POMDP Problems [5.23587935428994]
本稿では,POMDPにおける自己エンコーダの潜伏空間を利用した制御器を進化させるために,ニューラルネットワークの高度適応性を利用する。
生まれながらの知識とオンラインの可塑性の統合は、進化的でないメタ強化学習アルゴリズムと比較して、迅速な適応と性能の向上を可能にした。
論文 参考訳(メタデータ) (2020-04-27T14:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。