論文の概要: Prediction and Control in Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.11669v1
- Date: Mon, 18 Dec 2023 19:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:57:02.729596
- Title: Prediction and Control in Continual Reinforcement Learning
- Title(参考訳): 連続強化学習における予測と制御
- Authors: Nishanth Anand, Doina Precup
- Abstract要約: 時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の見積を更新するためにしばしば使用される。
本稿では,値関数を異なる時間スケールで更新する2つのコンポーネントに分解する。
- 参考スコア(独自算出の注目度): 39.30411018922005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal difference (TD) learning is often used to update the estimate of the
value function which is used by RL agents to extract useful policies. In this
paper, we focus on value function estimation in continual reinforcement
learning. We propose to decompose the value function into two components which
update at different timescales: a permanent value function, which holds general
knowledge that persists over time, and a transient value function, which allows
quick adaptation to new situations. We establish theoretical results showing
that our approach is well suited for continual learning and draw connections to
the complementary learning systems (CLS) theory from neuroscience. Empirically,
this approach improves performance significantly on both prediction and control
problems.
- Abstract(参考訳): 時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の推定を更新するためにしばしば用いられる。
本稿では,連続的強化学習における値関数推定に着目した。
本稿では,時間とともに持続する一般知識を持つ永続値関数と,新しい状況に迅速に適応可能な過渡値関数という,異なる時間スケールで更新される2つのコンポーネントに値関数を分解することを提案する。
我々は,本手法が連続学習に適していることを示す理論的結果を確立し,神経科学から補完学習システム(CLS)理論に関連性を示す。
実験的に、このアプローチは予測と制御の両方の問題のパフォーマンスを著しく改善する。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Normality-Guided Distributional Reinforcement Learning for Continuous
Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - On the Outsized Importance of Learning Rates in Local Update Methods [2.094022863940315]
我々は,多くのフェデレーション学習とメタ学習アルゴリズムを一般化する,局所的な更新手法と呼ばれるアルゴリズム群について検討する。
2次目的に対して、局所更新法は、正に特徴付けられる代理損失関数の勾配降下を実行することを証明した。
クライアント学習率の選択は、サロゲート損失の条件数と、サロゲート最小化関数と真の損失関数との距離を制御していることを示す。
論文 参考訳(メタデータ) (2020-07-02T04:45:55Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。