Fugu-MT 論文翻訳(概要): META-Learning Eligibility Traces for More Sample Efficient Temporal Difference Learning

論文の概要: META-Learning Eligibility Traces for More Sample Efficient Temporal Difference Learning

arxiv url: http://arxiv.org/abs/2006.08906v1
Date: Tue, 16 Jun 2020 03:41:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-20 18:33:10.507631
Title: META-Learning Eligibility Traces for More Sample Efficient Temporal Difference Learning
Title（参考訳）: よりサンプル効率のよい時間差学習のためのメタラーニング適性トレース
Authors: Mingde Zhao
Abstract要約: そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
参考スコア（独自算出の注目度）: 2.0559497209595823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal-Difference (TD) learning is a standard and very successful reinforcement learning approach, at the core of both algorithms that learn the value of a given policy, as well as algorithms which learn how to improve policies. TD-learning with eligibility traces provides a way to do temporal credit assignment, i.e. decide which portion of a reward should be assigned to predecessor states that occurred at different previous times, controlled by a parameter $\lambda$. However, tuning this parameter can be time-consuming, and not tuning it can lead to inefficient learning. To improve the sample efficiency of TD-learning, we propose a meta-learning method for adjusting the eligibility trace parameter, in a state-dependent manner. The adaptation is achieved with the help of auxiliary learners that learn distributional information about the update targets online, incurring roughly the same computational complexity per step as the usual value learner. Our approach can be used both in on-policy and off-policy learning. We prove that, under some assumptions, the proposed method improves the overall quality of the update targets, by minimizing the overall target error. This method can be viewed as a plugin which can also be used to assist prediction with function approximation by meta-learning feature (observation)-based $\lambda$ online, or even in the control case to assist policy improvement. Our empirical evaluation demonstrates significant performance improvements, as well as improved robustness of the proposed algorithm to learning rate variation.
Abstract（参考訳）: 時間差学習(td learning)は、与えられたポリシーの価値を学ぶアルゴリズムと、ポリシーを改善する方法を学ぶアルゴリズムの両方のコアとなる、標準的で非常に成功した強化学習アプローチである。適格トレースを持つTD学習は、時間的クレジット割り当てを行う手段を提供する。すなわち、パラメータ$\lambda$によって制御された前回の状態に報酬のどの部分が割り当てられるべきかを決定する。しかし、このパラメータのチューニングは時間がかかり、チューニングしないと非効率な学習につながる可能性がある。そこで本研究では,td-learningのサンプル効率を向上させるために,適性トレースパラメータを状態に依存して調整するメタラーニング手法を提案する。この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。私たちのアプローチは、オン政治とオフ政治の学習の両方で使用できます。提案手法は,いくつかの仮定の下で,目標誤差の最小化により,更新対象の全体的な品質を改善する。この方法は、メタラーニング機能(オブザーブレーション)ベースの$\lambda$オンラインによる関数近似による予測を支援するプラグインや、ポリシー改善を支援するコントロールケースでも使用することができる。我々の経験的評価は,学習速度変化に対するアルゴリズムの頑健性の向上とともに,大幅な性能向上を示す。

関連論文リスト

What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文参考訳（メタデータ） (2025-05-12T21:24:22Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
Online Reinforcement Learning-Based Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks [5.115170525117103]
リアルタイム戦略タスクの効果的な評価には、動的で予測不可能な環境に対処するための適応的なメカニズムが必要である。本研究では,戦場状況変化に対するリアルタイム応答性評価機能の改善手法を提案する。
論文参考訳（メタデータ） (2025-01-07T14:36:33Z)
Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。 LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2024-10-16T14:15:28Z)
Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文参考訳（メタデータ） (2023-02-01T15:59:57Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。パターン認識型メタラーニング手法を提案する。
論文参考訳（メタデータ） (2020-10-19T08:06:47Z)
Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。本稿では,更新ルール全体を検出するメタラーニング手法を提案する。これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文参考訳（メタデータ） (2020-07-17T07:38:39Z)
Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。目的はオンラインで発見されるため、時間とともに変化に適応することができる。 Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文参考訳（メタデータ） (2020-07-16T16:17:09Z)
Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文参考訳（メタデータ） (2020-05-25T13:45:47Z)
Deep Reinforcement Learning for Adaptive Learning Systems [4.8685842576962095]
学習者の潜在特性に基づいて,個別化学習計画の探索方法の問題点を定式化する。最適な学習ポリシーを効果的に見つけることができるモデルフリーの深層強化学習アルゴリズムを適用した。また,ニューラルネットワークを用いて学習者の学習過程をエミュレートする遷移モデル推定器を開発した。
論文参考訳（メタデータ） (2020-04-17T18:04:03Z)
Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文参考訳（メタデータ） (2019-12-29T08:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。