論文の概要: An Investigation of the Bias-Variance Tradeoff in Meta-Gradients
- arxiv url: http://arxiv.org/abs/2209.11303v1
- Date: Thu, 22 Sep 2022 20:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 16:59:18.031353
- Title: An Investigation of the Bias-Variance Tradeoff in Meta-Gradients
- Title(参考訳): メタグラディエンスにおけるバイアス分散トレードオフの検討
- Authors: Risto Vuorio, Jacob Beck, Shimon Whiteson, Jakob Foerster, Gregory
Farquhar
- Abstract要約: ヘッセン推定は常にバイアスを追加し、メタ階調推定に分散を加えることもできる。
提案手法は, 乱れたバックプロパゲーションとサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 53.28925387487846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-gradients provide a general approach for optimizing the meta-parameters
of reinforcement learning (RL) algorithms. Estimation of meta-gradients is
central to the performance of these meta-algorithms, and has been studied in
the setting of MAML-style short-horizon meta-RL problems. In this context,
prior work has investigated the estimation of the Hessian of the RL objective,
as well as tackling the problem of credit assignment to pre-adaptation behavior
by making a sampling correction. However, we show that Hessian estimation,
implemented for example by DiCE and its variants, always adds bias and can also
add variance to meta-gradient estimation. Meanwhile, meta-gradient estimation
has been studied less in the important long-horizon setting, where
backpropagation through the full inner optimization trajectories is not
feasible. We study the bias and variance tradeoff arising from truncated
backpropagation and sampling correction, and additionally compare to evolution
strategies, which is a recently popular alternative strategy to long-horizon
meta-learning. While prior work implicitly chooses points in this bias-variance
space, we disentangle the sources of bias and variance and present an empirical
study that relates existing estimators to each other.
- Abstract(参考訳): meta-gradientsは強化学習(rl)アルゴリズムのメタパラメータを最適化するための一般的なアプローチを提供する。
メタ勾配の推定はこれらのメタアルゴリズムの性能の中心であり,MAML型短水平メタRL問題の設定において研究されている。
この文脈において、先行研究は、RL目標のヘシアンの推定を調査するとともに、サンプリング補正を行うことにより、事前適応行動へのクレジット割り当ての問題に取り組む。
しかし,例えばdiceとその変種によって実装されたヘッセン推定は,常にバイアスを増加させ,メタ次数推定にもばらつきを加えることができることを示した。
一方、メタ勾配推定は、完全内部最適化軌道によるバックプロパゲーションが実現不可能である重要なロングホリゾン設定では、あまり研究されていない。
本稿では, 乱れた逆伝播とサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討するとともに, 最近普及している長軸メタラーニングの代替戦略である進化戦略との比較を行った。
この偏差空間の点を暗黙的に選択する以前の研究は、偏差と分散の源を歪め、既存の推定器を互いに関連付ける経験的研究を提示する。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Reducing Variance in Meta-Learning via Laplace Approximation for Regression Tasks [23.33263252557512]
勾配に基づくメタラーニングにおける分散化の問題に対処する。
本稿では,各支持点を個別に重み付けすることで,勾配推定のばらつきを低減する手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T12:30:05Z) - Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。
本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-29T04:15:58Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Debiasing Meta-Gradient Reinforcement Learning by Learning the Outer
Value Function [69.59204851882643]
メタグラディエントRLアプローチのメタグラディエントにおけるバイアスを同定する。
このバイアスは、メタ学習された割引係数を用いてトレーニングされた批評家を用いて、外的目的の利点を推定することに由来する。
メタ学習型割引因子は、通常、外側の目的で使用されるものよりも低いため、結果として生じるバイアスは、メタ学習型が筋電図のポリシーを好む原因となる。
論文 参考訳(メタデータ) (2022-11-19T00:59:20Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z) - Unbiased Gradient Estimation for Distributionally Robust Learning [2.1777837784979277]
分散的に堅牢な学習(DRL)に基づく新しいアプローチを検討し、内部問題に勾配降下を適用します。
本アルゴリズムはマルチレベルモンテカルロランダム化により勾配勾配を効率的に推定する。
論文 参考訳(メタデータ) (2020-12-22T21:35:03Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z) - On the Convergence Theory of Debiased Model-Agnostic Meta-Reinforcement
Learning [25.163423936635787]
強化学習(RL)問題に対するモデル非依存メタラーニング(MAML)手法を検討する。
我々は,SG-MRL(Gradient Meta-Reinforcement Learning)と呼ばれるMAML手法の変種を提案する。
我々はSG-MRLの反復とサンプルの複雑さを導出して$ilon$-first-orderの定常点を求める。
論文 参考訳(メタデータ) (2020-02-12T18:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。