Fugu-MT 論文翻訳(概要): Settling the Bias and Variance of Meta-Gradient Estimation for Meta-Reinforcement Learning

論文の概要: Settling the Bias and Variance of Meta-Gradient Estimation for Meta-Reinforcement Learning

arxiv url: http://arxiv.org/abs/2112.15400v1
Date: Fri, 31 Dec 2021 11:56:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-03 13:53:13.125174
Title: Settling the Bias and Variance of Meta-Gradient Estimation for Meta-Reinforcement Learning
Title（参考訳）: メタ強化学習におけるバイアスの設定とメタグラディエント推定のばらつき
Authors: Bo Liu, Xidong Feng, Haifeng Zhang, Jun Wang, Yaodong Yang
Abstract要約: 既存の多くのMGRL法で採用されているメタ勾配推定は、実際には偏りがある。メタグラデーションバイアスをよりよく理解するために、我々はその種類の最初の研究を行い、それぞれの量について定量化する。オフ・ポリシー補正とマルチステップ・ヘッセン推定に基づく2つの緩和法を提案する。
参考スコア（独自算出の注目度）: 21.324904240185997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, gradient based Meta-RL (GMRL) methods have achieved remarkable successes in either discovering effective online hyperparameter for one single task (Xu et al., 2018) or learning good initialisation for multi-task transfer learning (Finn et al., 2017). Despite the empirical successes, it is often neglected that computing meta gradients via vanilla backpropagation is ill-defined. In this paper, we argue that the stochastic meta-gradient estimation adopted by many existing MGRL methods are in fact biased; the bias comes from two sources: 1) the compositional bias that is inborn in the structure of compositional optimisation problems and 2) the bias of multi-step Hessian estimation caused by direct automatic differentiation. To better understand the meta gradient biases, we perform the first of its kind study to quantify the amount for each of them. We start by providing a unifying derivation for existing GMRL algorithms, and then theoretically analyse both the bias and the variance of existing gradient estimation methods. On understanding the underlying principles of bias, we propose two mitigation solutions based on off-policy correction and multi-step Hessian estimation techniques. Comprehensive ablation studies have been conducted and results reveals: (1) The existence of these two biases and how they influence the meta-gradient estimation when combined with different estimator/sample size/step and learning rate. (2) The effectiveness of these mitigation approaches for meta-gradient estimation and thereby the final return on two practical Meta-RL algorithms: LOLA-DiCE and Meta-gradient Reinforcement Learning.
Abstract（参考訳）: 近年、勾配に基づくメタrl(gmrl)手法は、1つのタスクで効果的なオンラインハイパーパラメータ(xu et al., 2018)を発見するか、マルチタスク転送学習(finn et al., 2017)のための良い初期化を学ぶかで、顕著な成功を収めている。経験的な成功にもかかわらず、バニラバックプロパゲーションによるメタ勾配の計算が不定義であることはしばしば無視される。本稿では,既存の多くのMGRL法で採用されている確率的メタ勾配推定が,実際には偏りがあることを論じる。 1)構成最適化問題の構造に内在する構成バイアス 2) 直接的自動微分による多段階ヘッセン推定のバイアスメタグラデーションバイアスをよりよく理解するために,我々は,その種の最初の研究を行い,それぞれの量の定量化を行う。まず、既存のGMRLアルゴリズムの統一導出を行い、その後、既存の勾配推定法のバイアスと分散の両方を理論的に解析する。バイアスの基本原理を理解するために,オフ・ポリシー補正法と多段階ヘッセン推定法に基づく2つの緩和解を提案する。包括的アブレーション研究を行い,(1)これら2つのバイアスの存在と,異なる推定器/サンプルサイズ/ステップおよび学習率と組み合わせた場合のメタ勾配推定にどのように影響するかを明らかにした。 2) メタ段階的推定におけるこれらの緩和手法の有効性と, LOLA-DiCEとメタ段階的強化学習の2つの実践的メタRLアルゴリズムの最終的な回帰効果について検討した。

関連論文リスト

Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures [53.51230405648361]
勾配EMの力学を考察し, テンソル分解を用いて幾何的景観を特徴付ける。これは、m=2$という特別な場合を超えるEMや勾配EMに対する最初の大域収束と回復の結果である。
論文参考訳（メタデータ） (2025-06-06T23:32:38Z)
Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文参考訳（メタデータ） (2024-05-10T09:58:47Z)
Unbiased Kinetic Langevin Monte Carlo with Inexact Gradients [0.8749675983608172]
動力学的ランゲヴィンダイナミクスに基づく後進手段の非バイアス化手法を提案する。提案した推定器は偏りがなく、有限分散となり、中心極限定理を満たす。以上の結果から、大規模アプリケーションでは、非バイアスアルゴリズムは「ゴールドスタンダード」なハミルトニアン・モンテカルロよりも2～3桁効率が良いことが示された。
論文参考訳（メタデータ） (2023-11-08T21:19:52Z)
A Coreset-based, Tempered Variational Posterior for Accurate and Scalable Stochastic Gaussian Process Inference [2.7855886538423187]
重み付き擬似入出力点(コアセット)の学習可能な集合上の後部に基づく新しい変分ガウス法(mathcalGP$)を提案する。我々は、潜伏$mathcalGP$ coreset変数の辺化により、対数的可能性に対するGPの低い境界を導出する。
論文参考訳（メタデータ） (2023-11-02T17:22:22Z)
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。 PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-06-13T19:11:22Z)
Generalization Bounds for Gradient Methods via Discrete and Continuous Prior [8.76346911214414]
次数$O(frac1n + fracL2nsum_t=1T(gamma_t/varepsilon_t)2)$の新たな高確率一般化境界を示す。また、あるSGDの変種に対する新しい境界を得ることもできる。
論文参考訳（メタデータ） (2022-05-27T07:23:01Z)
Computationally Efficient Horizon-Free Reinforcement Learning for Linear Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文参考訳（メタデータ） (2022-05-23T17:59:18Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)
Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。 Open GymAI連続制御タスクの結果。
論文参考訳（メタデータ） (2022-02-28T15:16:23Z)
An Improved Analysis of Gradient Tracking for Decentralized Machine Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文参考訳（メタデータ） (2022-02-08T12:58:14Z)
Biased Gradient Estimate with Drastic Variance Reduction for Meta Reinforcement Learning [25.639542287310768]
偏りのある勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。線形化スコア関数 (LSF) 勾配推定法を提案し, バイアスが$mathcalO (1/sqrtN)$, 分散が$mathcalO (1/N)$である。定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立し、N$が大きければ以前の作業よりもN$への依存性がよいことを示す。
論文参考訳（メタデータ） (2021-12-14T12:29:43Z)
Fast Gradient Non-sign Methods [67.56549792690706]
Fast Gradient Non-sign Method (FGNM) は一般的なルーチンであり、グラデーションベースの攻撃において従来の$sign$操作をシームレスに置き換えることができる。我々の手法は、textbf27.5% と textbf9.5% でそれらを上回ります。
論文参考訳（メタデータ） (2021-10-25T08:46:00Z)
Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文参考訳（メタデータ） (2021-03-04T19:01:20Z)
A New Framework for Variance-Reduced Hamiltonian Monte Carlo [88.84622104944503]
分散還元型ハミルトン・モンテカルロ法 (HMC) の新たなフレームワークを提案し,$L$-smooth および $m$-strongly log-concave 分布からサンプリングする。本研究では,SAGA法やSVRG法をベースとした非バイアス勾配推定器を用いて,バッチサイズを小さくすることで,高い勾配効率が得られることを示す。総合的および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配と勾配HMCアプローチを著しく上回っていることが示された。
論文参考訳（メタデータ） (2021-02-09T02:44:24Z)
Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。 i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文参考訳（メタデータ） (2020-07-16T06:44:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。