論文の概要: Averaging $n$-step Returns Reduces Variance in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.03903v2
- Date: Wed, 5 Jun 2024 20:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 23:40:31.383455
- Title: Averaging $n$-step Returns Reduces Variance in Reinforcement Learning
- Title(参考訳): 平均$n$-stepの返却は強化学習における変数を減らす
- Authors: Brett Daley, Martha White, Marlos C. Machado,
- Abstract要約: 我々は、分散を減らすために複合戻り値 -- 平均$n$-step戻り値の重み付け平均 -- の能力を実証する。
さらに,この分散還元特性が時間差学習の有限サンプル複雑性を向上させることを証明した。
一般化合物リターンは実装に費用がかかるため,効率を保ちながら分散を低減する2ブートストラップリターンを導入する。
- 参考スコア(独自算出の注目度): 24.072317774998606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multistep returns, such as $n$-step returns and $\lambda$-returns, are commonly used to improve the sample efficiency of reinforcement learning (RL) methods. The variance of the multistep returns becomes the limiting factor in their length; looking too far into the future increases variance and reverses the benefits of multistep learning. In our work, we demonstrate the ability of compound returns -- weighted averages of $n$-step returns -- to reduce variance. We prove for the first time that any compound return with the same contraction modulus as a given $n$-step return has strictly lower variance. We additionally prove that this variance-reduction property improves the finite-sample complexity of temporal-difference learning under linear function approximation. Because general compound returns can be expensive to implement, we introduce two-bootstrap returns which reduce variance while remaining efficient, even when using minibatched experience replay. We conduct experiments showing that compound returns often increase the sample efficiency of $n$-step deep RL agents like DQN and PPO.
- Abstract(参考訳): n$-step returnや$\lambda$-returnsといったマルチステップリターンは、強化学習(RL)メソッドのサンプル効率を改善するために一般的に使用される。
多段階学習の利点を逆転させ、未来に近づきすぎると、多段階学習の利点が逆転する。
我々の研究では、分散を減らすために複合戻り値 -- $n$-step の重み付き平均値 -- が示される。
与えられた$n$-stepの戻り値と同じ縮約係数を持つ任意の化合物が、厳密に分散を減少させることを初めて証明する。
さらに,この分散還元特性が線形関数近似の下での時間差学習の有限サンプル複雑性を向上させることを証明した。
一般化合物のリターンは実装に費用がかかるため,ミニバッチ経験再生を用いた場合であっても,効率を保ちながら分散を低減できる2ブートストラップリターンを導入する。
DQN や PPO のような深部RL 剤の試料効率が$n$-step である場合が多いことを示す実験を行った。
関連論文リスト
- Higher Replay Ratio Empowers Sample-Efficient Multi-Agent Reinforcement Learning [47.17030172520195]
MARL(Multi-Agent Reinforcement Learning)のサンプル効率は、その固有の部分的可観測性、非定常トレーニング、および巨大な戦略空間のため、より困難である。
広く使われているエピソードトレーニング機構は、サンプル効率の低下の原因となる可能性があると論じる。
既に収集したデータをよりよく活用するために,環境相互作用毎の勾配更新の頻度を高めることを提案する。
論文 参考訳(メタデータ) (2024-04-15T12:18:09Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Nonparametric regression with modified ReLU networks [77.34726150561087]
ネットワーク重み行列を入力ベクトルに乗じる前に,まず関数$alpha$で修正したReLUニューラルネットワークによる回帰推定を考察する。
論文 参考訳(メタデータ) (2022-07-17T21:46:06Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Adaptive Tree Backup Algorithms for Temporal-Difference Reinforcement
Learning [2.28438857884398]
sigma=0$の選択はバイアスを増大させることなく分散を最小化することを示す。
エージェントが経験を積むにつれて重み付きバックアップが進化する適応木バックアップ(ATB)手法を提案する。
本実験は, 適応戦略が, 固定値や時間アニール値の$sigma$-valueに依存するよりも有効であることを示す。
論文 参考訳(メタデータ) (2022-06-04T03:44:53Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Mixability made efficient: Fast online multiclass logistic regression [68.8204255655161]
我々は、混合性は最適な後悔を伴うアルゴリズムを得るための強力なツールであることを示した。
結果として得られる手法は、しばしば計算の複雑さに悩まされ、実用性が低下した。
論文 参考訳(メタデータ) (2021-10-08T08:22:05Z) - Bias-reduced multi-step hindsight experience replay [12.277806851513835]
マルチゴール強化学習における2つの主な課題は、スパース報酬とサンプル非効率である。
Hindsight Experience Replay (HER)は、隠れた知識で2つの課題に取り組むことを目的としている。
n$-stepリラベルに基づくmphMulti-step Hindsight Experience Replay(MHER)を提案し、マルチステップリラベルリターンを取り入れてサンプル効率を向上させます。
論文 参考訳(メタデータ) (2021-02-25T16:05:57Z) - Fast Approximate Multi-output Gaussian Processes [6.6174748514131165]
提案手法のトレーニングには、$N×n$固有関数行列と$n×n$逆数しか必要とせず、$n$は選択された固有値の数である。
提案手法は,複数の出力に対して回帰し,任意の順序の回帰器の導関数を推定し,それらの相関関係を学習することができる。
論文 参考訳(メタデータ) (2020-08-22T14:34:45Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。