論文の概要: Settling the Bias and Variance of Meta-Gradient Estimation for
Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.15400v1
- Date: Fri, 31 Dec 2021 11:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 13:53:13.125174
- Title: Settling the Bias and Variance of Meta-Gradient Estimation for
Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習におけるバイアスの設定とメタグラディエント推定のばらつき
- Authors: Bo Liu, Xidong Feng, Haifeng Zhang, Jun Wang, Yaodong Yang
- Abstract要約: 既存の多くのMGRL法で採用されているメタ勾配推定は、実際には偏りがある。
メタグラデーションバイアスをよりよく理解するために、我々はその種類の最初の研究を行い、それぞれの量について定量化する。
オフ・ポリシー補正とマルチステップ・ヘッセン推定に基づく2つの緩和法を提案する。
- 参考スコア(独自算出の注目度): 21.324904240185997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, gradient based Meta-RL (GMRL) methods have achieved
remarkable successes in either discovering effective online hyperparameter for
one single task (Xu et al., 2018) or learning good initialisation for
multi-task transfer learning (Finn et al., 2017). Despite the empirical
successes, it is often neglected that computing meta gradients via vanilla
backpropagation is ill-defined. In this paper, we argue that the stochastic
meta-gradient estimation adopted by many existing MGRL methods are in fact
biased; the bias comes from two sources: 1) the compositional bias that is
inborn in the structure of compositional optimisation problems and 2) the bias
of multi-step Hessian estimation caused by direct automatic differentiation. To
better understand the meta gradient biases, we perform the first of its kind
study to quantify the amount for each of them. We start by providing a unifying
derivation for existing GMRL algorithms, and then theoretically analyse both
the bias and the variance of existing gradient estimation methods. On
understanding the underlying principles of bias, we propose two mitigation
solutions based on off-policy correction and multi-step Hessian estimation
techniques. Comprehensive ablation studies have been conducted and results
reveals: (1) The existence of these two biases and how they influence the
meta-gradient estimation when combined with different estimator/sample
size/step and learning rate. (2) The effectiveness of these mitigation
approaches for meta-gradient estimation and thereby the final return on two
practical Meta-RL algorithms: LOLA-DiCE and Meta-gradient Reinforcement
Learning.
- Abstract(参考訳): 近年、勾配に基づくメタrl(gmrl)手法は、1つのタスクで効果的なオンラインハイパーパラメータ(xu et al., 2018)を発見するか、マルチタスク転送学習(finn et al., 2017)のための良い初期化を学ぶかで、顕著な成功を収めている。
経験的な成功にもかかわらず、バニラバックプロパゲーションによるメタ勾配の計算が不定義であることはしばしば無視される。
本稿では,既存の多くのMGRL法で採用されている確率的メタ勾配推定が,実際には偏りがあることを論じる。
1)構成最適化問題の構造に内在する構成バイアス
2) 直接的自動微分による多段階ヘッセン推定のバイアス
メタグラデーションバイアスをよりよく理解するために,我々は,その種の最初の研究を行い,それぞれの量の定量化を行う。
まず、既存のGMRLアルゴリズムの統一導出を行い、その後、既存の勾配推定法のバイアスと分散の両方を理論的に解析する。
バイアスの基本原理を理解するために,オフ・ポリシー補正法と多段階ヘッセン推定法に基づく2つの緩和解を提案する。
包括的アブレーション研究を行い,(1)これら2つのバイアスの存在と,異なる推定器/サンプルサイズ/ステップおよび学習率と組み合わせた場合のメタ勾配推定にどのように影響するかを明らかにした。
2) メタ段階的推定におけるこれらの緩和手法の有効性と, LOLA-DiCEとメタ段階的強化学習の2つの実践的メタRLアルゴリズムの最終的な回帰効果について検討した。
関連論文リスト
- Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - On Training Implicit Meta-Learning With Applications to Inductive
Weighing in Consistency Regularization [0.0]
暗黙的メタラーニング(IML)では、特にヘシアン(Hessian)の計算に2ドル(約2,200円)の勾配を必要とする。
ヘッセンの様々な近似が提案されたが、計算コスト、安定性、解の一般化、推定精度の体系的な比較はほとんど見過ごされてしまった。
本稿では,ドメイン固有の特徴を抽出するために,信頼ネットワークをトレーニングすることで,有用画像のアップウェイトや配布外サンプルのダウンウェイトを学べることを示す。
論文 参考訳(メタデータ) (2023-10-28T15:50:03Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - An Investigation of the Bias-Variance Tradeoff in Meta-Gradients [53.28925387487846]
ヘッセン推定は常にバイアスを追加し、メタ階調推定に分散を加えることもできる。
提案手法は, 乱れたバックプロパゲーションとサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-09-22T20:33:05Z) - Biased Gradient Estimate with Drastic Variance Reduction for Meta
Reinforcement Learning [25.639542287310768]
偏りのある勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。
線形化スコア関数 (LSF) 勾配推定法を提案し, バイアスが$mathcalO (1/sqrtN)$, 分散が$mathcalO (1/N)$である。
定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立し、N$が大きければ以前の作業よりもN$への依存性がよいことを示す。
論文 参考訳(メタデータ) (2021-12-14T12:29:43Z) - One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning [61.662504399411695]
より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
論文 参考訳(メタデータ) (2021-10-30T08:36:52Z) - Covariate Distribution Aware Meta-learning [3.494950334697974]
本稿では,有意義な緩和を導入することで,計算可能なメタ学習アルゴリズムを提案する。
一般的な分類ベンチマークに基づいて,ブートストラップによるメタラーニングベースラインに対するアルゴリズムの優位性を実証する。
論文 参考訳(メタデータ) (2020-07-06T05:00:13Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z) - On the Convergence Theory of Debiased Model-Agnostic Meta-Reinforcement
Learning [25.163423936635787]
強化学習(RL)問題に対するモデル非依存メタラーニング(MAML)手法を検討する。
我々は,SG-MRL(Gradient Meta-Reinforcement Learning)と呼ばれるMAML手法の変種を提案する。
我々はSG-MRLの反復とサンプルの複雑さを導出して$ilon$-first-orderの定常点を求める。
論文 参考訳(メタデータ) (2020-02-12T18:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。