論文の概要: META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning
- arxiv url: http://arxiv.org/abs/2006.08906v1
- Date: Tue, 16 Jun 2020 03:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:33:10.507631
- Title: META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning
- Title(参考訳): よりサンプル効率のよい時間差学習のためのメタラーニング適性トレース
- Authors: Mingde Zhao
- Abstract要約: そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
- 参考スコア(独自算出の注目度): 2.0559497209595823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal-Difference (TD) learning is a standard and very successful
reinforcement learning approach, at the core of both algorithms that learn the
value of a given policy, as well as algorithms which learn how to improve
policies. TD-learning with eligibility traces provides a way to do temporal
credit assignment, i.e. decide which portion of a reward should be assigned to
predecessor states that occurred at different previous times, controlled by a
parameter $\lambda$. However, tuning this parameter can be time-consuming, and
not tuning it can lead to inefficient learning. To improve the sample
efficiency of TD-learning, we propose a meta-learning method for adjusting the
eligibility trace parameter, in a state-dependent manner. The adaptation is
achieved with the help of auxiliary learners that learn distributional
information about the update targets online, incurring roughly the same
computational complexity per step as the usual value learner. Our approach can
be used both in on-policy and off-policy learning. We prove that, under some
assumptions, the proposed method improves the overall quality of the update
targets, by minimizing the overall target error. This method can be viewed as a
plugin which can also be used to assist prediction with function approximation
by meta-learning feature (observation)-based $\lambda$ online, or even in the
control case to assist policy improvement. Our empirical evaluation
demonstrates significant performance improvements, as well as improved
robustness of the proposed algorithm to learning rate variation.
- Abstract(参考訳): 時間差学習(td learning)は、与えられたポリシーの価値を学ぶアルゴリズムと、ポリシーを改善する方法を学ぶアルゴリズムの両方のコアとなる、標準的で非常に成功した強化学習アプローチである。
適格トレースを持つTD学習は、時間的クレジット割り当てを行う手段を提供する。すなわち、パラメータ$\lambda$によって制御された前回の状態に報酬のどの部分が割り当てられるべきかを決定する。
しかし、このパラメータのチューニングは時間がかかり、チューニングしないと非効率な学習につながる可能性がある。
そこで本研究では,td-learningのサンプル効率を向上させるために,適性トレースパラメータを状態に依存して調整するメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
私たちのアプローチは、オン政治とオフ政治の学習の両方で使用できます。
提案手法は,いくつかの仮定の下で,目標誤差の最小化により,更新対象の全体的な品質を改善する。
この方法は、メタラーニング機能(オブザーブレーション)ベースの$\lambda$オンラインによる関数近似による予測を支援するプラグインや、ポリシー改善を支援するコントロールケースでも使用することができる。
我々の経験的評価は,学習速度変化に対するアルゴリズムの頑健性の向上とともに,大幅な性能向上を示す。
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。
このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。
以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文 参考訳(メタデータ) (2023-02-01T15:59:57Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z) - Deep Reinforcement Learning for Adaptive Learning Systems [4.8685842576962095]
学習者の潜在特性に基づいて,個別化学習計画の探索方法の問題点を定式化する。
最適な学習ポリシーを効果的に見つけることができるモデルフリーの深層強化学習アルゴリズムを適用した。
また,ニューラルネットワークを用いて学習者の学習過程をエミュレートする遷移モデル推定器を開発した。
論文 参考訳(メタデータ) (2020-04-17T18:04:03Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。