論文の概要: Settling the Bias and Variance of Meta-Gradient Estimation for
Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.15400v1
- Date: Fri, 31 Dec 2021 11:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 13:53:13.125174
- Title: Settling the Bias and Variance of Meta-Gradient Estimation for
Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習におけるバイアスの設定とメタグラディエント推定のばらつき
- Authors: Bo Liu, Xidong Feng, Haifeng Zhang, Jun Wang, Yaodong Yang
- Abstract要約: 既存の多くのMGRL法で採用されているメタ勾配推定は、実際には偏りがある。
メタグラデーションバイアスをよりよく理解するために、我々はその種類の最初の研究を行い、それぞれの量について定量化する。
オフ・ポリシー補正とマルチステップ・ヘッセン推定に基づく2つの緩和法を提案する。
- 参考スコア(独自算出の注目度): 21.324904240185997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, gradient based Meta-RL (GMRL) methods have achieved
remarkable successes in either discovering effective online hyperparameter for
one single task (Xu et al., 2018) or learning good initialisation for
multi-task transfer learning (Finn et al., 2017). Despite the empirical
successes, it is often neglected that computing meta gradients via vanilla
backpropagation is ill-defined. In this paper, we argue that the stochastic
meta-gradient estimation adopted by many existing MGRL methods are in fact
biased; the bias comes from two sources: 1) the compositional bias that is
inborn in the structure of compositional optimisation problems and 2) the bias
of multi-step Hessian estimation caused by direct automatic differentiation. To
better understand the meta gradient biases, we perform the first of its kind
study to quantify the amount for each of them. We start by providing a unifying
derivation for existing GMRL algorithms, and then theoretically analyse both
the bias and the variance of existing gradient estimation methods. On
understanding the underlying principles of bias, we propose two mitigation
solutions based on off-policy correction and multi-step Hessian estimation
techniques. Comprehensive ablation studies have been conducted and results
reveals: (1) The existence of these two biases and how they influence the
meta-gradient estimation when combined with different estimator/sample
size/step and learning rate. (2) The effectiveness of these mitigation
approaches for meta-gradient estimation and thereby the final return on two
practical Meta-RL algorithms: LOLA-DiCE and Meta-gradient Reinforcement
Learning.
- Abstract(参考訳): 近年、勾配に基づくメタrl(gmrl)手法は、1つのタスクで効果的なオンラインハイパーパラメータ(xu et al., 2018)を発見するか、マルチタスク転送学習(finn et al., 2017)のための良い初期化を学ぶかで、顕著な成功を収めている。
経験的な成功にもかかわらず、バニラバックプロパゲーションによるメタ勾配の計算が不定義であることはしばしば無視される。
本稿では,既存の多くのMGRL法で採用されている確率的メタ勾配推定が,実際には偏りがあることを論じる。
1)構成最適化問題の構造に内在する構成バイアス
2) 直接的自動微分による多段階ヘッセン推定のバイアス
メタグラデーションバイアスをよりよく理解するために,我々は,その種の最初の研究を行い,それぞれの量の定量化を行う。
まず、既存のGMRLアルゴリズムの統一導出を行い、その後、既存の勾配推定法のバイアスと分散の両方を理論的に解析する。
バイアスの基本原理を理解するために,オフ・ポリシー補正法と多段階ヘッセン推定法に基づく2つの緩和解を提案する。
包括的アブレーション研究を行い,(1)これら2つのバイアスの存在と,異なる推定器/サンプルサイズ/ステップおよび学習率と組み合わせた場合のメタ勾配推定にどのように影響するかを明らかにした。
2) メタ段階的推定におけるこれらの緩和手法の有効性と, LOLA-DiCEとメタ段階的強化学習の2つの実践的メタRLアルゴリズムの最終的な回帰効果について検討した。
関連論文リスト
- Unbiased Kinetic Langevin Monte Carlo with Inexact Gradients [0.8749675983608172]
動力学的ランゲヴィンダイナミクスに基づく後進手段の非バイアス化手法を提案する。
提案した推定器は偏りがなく、有限分散となり、中心極限定理を満たす。
以上の結果から、大規模アプリケーションでは、非バイアスアルゴリズムは「ゴールドスタンダード」なハミルトニアン・モンテカルロよりも2~3桁効率が良いことが示された。
論文 参考訳(メタデータ) (2023-11-08T21:19:52Z) - A Coreset-based, Tempered Variational Posterior for Accurate and
Scalable Stochastic Gaussian Process Inference [2.7855886538423187]
重み付き擬似入出力点(コアセット)の学習可能な集合上の後部に基づく新しい変分ガウス法(mathcalGP$)を提案する。
我々は、潜伏$mathcalGP$ coreset変数の辺化により、対数的可能性に対するGPの低い境界を導出する。
論文 参考訳(メタデータ) (2023-11-02T17:22:22Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Generalization Bounds for Gradient Methods via Discrete and Continuous
Prior [8.76346911214414]
次数$O(frac1n + fracL2nsum_t=1T(gamma_t/varepsilon_t)2)$の新たな高確率一般化境界を示す。
また、あるSGDの変種に対する新しい境界を得ることもできる。
論文 参考訳(メタデータ) (2022-05-27T07:23:01Z) - Computationally Efficient Horizon-Free Reinforcement Learning for Linear
Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。
我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。
これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文 参考訳(メタデータ) (2022-05-23T17:59:18Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - An Improved Analysis of Gradient Tracking for Decentralized Machine
Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。
エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。
ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文 参考訳(メタデータ) (2022-02-08T12:58:14Z) - Biased Gradient Estimate with Drastic Variance Reduction for Meta
Reinforcement Learning [25.639542287310768]
偏りのある勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。
線形化スコア関数 (LSF) 勾配推定法を提案し, バイアスが$mathcalO (1/sqrtN)$, 分散が$mathcalO (1/N)$である。
定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立し、N$が大きければ以前の作業よりもN$への依存性がよいことを示す。
論文 参考訳(メタデータ) (2021-12-14T12:29:43Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - A New Framework for Variance-Reduced Hamiltonian Monte Carlo [88.84622104944503]
分散還元型ハミルトン・モンテカルロ法 (HMC) の新たなフレームワークを提案し,$L$-smooth および $m$-strongly log-concave 分布からサンプリングする。
本研究では,SAGA法やSVRG法をベースとした非バイアス勾配推定器を用いて,バッチサイズを小さくすることで,高い勾配効率が得られることを示す。
総合的および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配と勾配HMCアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2021-02-09T02:44:24Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。