論文の概要: A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.15400v4
- Date: Mon, 25 Mar 2024 12:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 02:19:20.777242
- Title: A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習における勾配バイアスの理論的理解
- Authors: Xidong Feng, Bo Liu, Jie Ren, Luo Mai, Rui Zhu, Haifeng Zhang, Jun Wang, Yaodong Yang,
- Abstract要約: グラディエントベースメタRL(GMRL)は、2段階の最適化手順を維持する手法である。
GMRLで採用されている既存のメタグラディエント推定器は、実際にテキストバイアスを受けていることを示す。
我々は,刑法外学習や低バイアス推定器などの他の手法が一般のGMRLアルゴリズムの勾配バイアスの解消にどのように役立つかを示すため,Iterated Prisoner's Dilemma と Atari のゲームで実験を行った。
- 参考スコア(独自算出の注目度): 16.824515577815696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based Meta-RL (GMRL) refers to methods that maintain two-level optimisation procedures wherein the outer-loop meta-learner guides the inner-loop gradient-based reinforcement learner to achieve fast adaptations. In this paper, we develop a unified framework that describes variations of GMRL algorithms and points out that existing stochastic meta-gradient estimators adopted by GMRL are actually \textbf{biased}. Such meta-gradient bias comes from two sources: 1) the compositional bias incurred by the two-level problem structure, which has an upper bound of $\mathcal{O}\big(K\alpha^{K}\hat{\sigma}_{\text{In}}|\tau|^{-0.5}\big)$ \emph{w.r.t.} inner-loop update step $K$, learning rate $\alpha$, estimate variance $\hat{\sigma}^{2}_{\text{In}}$ and sample size $|\tau|$, and 2) the multi-step Hessian estimation bias $\hat{\Delta}_{H}$ due to the use of autodiff, which has a polynomial impact $\mathcal{O}\big((K-1)(\hat{\Delta}_{H})^{K-1}\big)$ on the meta-gradient bias. We study tabular MDPs empirically and offer quantitative evidence that testifies our theoretical findings on existing stochastic meta-gradient estimators. Furthermore, we conduct experiments on Iterated Prisoner's Dilemma and Atari games to show how other methods such as off-policy learning and low-bias estimator can help fix the gradient bias for GMRL algorithms in general.
- Abstract(参考訳): GMRL(Gradient-based Meta-RL)は、外ループメタラーナーがインナーループ勾配に基づく強化学習者を誘導して高速な適応を実現する2段階最適化手順を維持する手法である。
本稿では、GMRLアルゴリズムのバリエーションを記述した統一的なフレームワークを開発し、GMRLで採用されている既存の確率的メタ勾配推定器が実際に \textbf{biased} であることを示した。
このようなメタグラディエントバイアスは、2つのソースから来ています。
1) 2レベルの問題構造によって生じる構成バイアスは、上限が$\mathcal{O}\big(K\alpha^{K}\hat{\sigma}_{\text{In}}|\tau|^{-0.5}\big)$ \emph{w.r.t.} 内部ループ更新ステップ$K$、学習率$\alpha$、推定分散$\hat{\sigma}^{2}_{\text{In}}$、サンプルサイズ$|\tau|$である。
2) マルチステップヘッセン推定バイアス $\hat{\Delta}_{H}$ は、メタ勾配バイアスに対する多項式影響 $\mathcal{O}\big((K-1)(\hat{\Delta}_{H})^{K-1}\big)$ であるautodiff の使用による。
我々は,表状MDPを実証的に研究し,既存の確率的メタ勾配推定器の理論的知見を実証する定量的証拠を提供する。
さらに,刑法外学習や低バイアス推定器などの他の手法が一般のGMRLアルゴリズムの勾配バイアスの解消にどのように役立つかを示すため,Iterated Prisoner's Dilemma と Atari のゲームで実験を行った。
関連論文リスト
- Unbiased Kinetic Langevin Monte Carlo with Inexact Gradients [0.8749675983608172]
動力学的ランゲヴィンダイナミクスに基づく後進手段の非バイアス化手法を提案する。
提案した推定器は偏りがなく、有限分散となり、中心極限定理を満たす。
以上の結果から、大規模アプリケーションでは、非バイアスアルゴリズムは「ゴールドスタンダード」なハミルトニアン・モンテカルロよりも2~3桁効率が良いことが示された。
論文 参考訳(メタデータ) (2023-11-08T21:19:52Z) - A Coreset-based, Tempered Variational Posterior for Accurate and
Scalable Stochastic Gaussian Process Inference [2.7855886538423187]
重み付き擬似入出力点(コアセット)の学習可能な集合上の後部に基づく新しい変分ガウス法(mathcalGP$)を提案する。
我々は、潜伏$mathcalGP$ coreset変数の辺化により、対数的可能性に対するGPの低い境界を導出する。
論文 参考訳(メタデータ) (2023-11-02T17:22:22Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Generalization Bounds for Gradient Methods via Discrete and Continuous
Prior [8.76346911214414]
次数$O(frac1n + fracL2nsum_t=1T(gamma_t/varepsilon_t)2)$の新たな高確率一般化境界を示す。
また、あるSGDの変種に対する新しい境界を得ることもできる。
論文 参考訳(メタデータ) (2022-05-27T07:23:01Z) - Computationally Efficient Horizon-Free Reinforcement Learning for Linear
Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。
我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。
これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文 参考訳(メタデータ) (2022-05-23T17:59:18Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - An Improved Analysis of Gradient Tracking for Decentralized Machine
Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。
エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。
ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文 参考訳(メタデータ) (2022-02-08T12:58:14Z) - Biased Gradient Estimate with Drastic Variance Reduction for Meta
Reinforcement Learning [25.639542287310768]
偏りのある勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。
線形化スコア関数 (LSF) 勾配推定法を提案し, バイアスが$mathcalO (1/sqrtN)$, 分散が$mathcalO (1/N)$である。
定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立し、N$が大きければ以前の作業よりもN$への依存性がよいことを示す。
論文 参考訳(メタデータ) (2021-12-14T12:29:43Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - A New Framework for Variance-Reduced Hamiltonian Monte Carlo [88.84622104944503]
分散還元型ハミルトン・モンテカルロ法 (HMC) の新たなフレームワークを提案し,$L$-smooth および $m$-strongly log-concave 分布からサンプリングする。
本研究では,SAGA法やSVRG法をベースとした非バイアス勾配推定器を用いて,バッチサイズを小さくすることで,高い勾配効率が得られることを示す。
総合的および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配と勾配HMCアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2021-02-09T02:44:24Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。