論文の概要: Biased Gradient Estimate with Drastic Variance Reduction for Meta
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.07328v1
- Date: Tue, 14 Dec 2021 12:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 17:02:35.645296
- Title: Biased Gradient Estimate with Drastic Variance Reduction for Meta
Reinforcement Learning
- Title(参考訳): メタ強化学習のための確率的分散低減によるバイアスド・グラデーション推定
- Authors: Yunhao Tang
- Abstract要約: 偏りのある勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。
線形化スコア関数 (LSF) 勾配推定法を提案し, バイアスが$mathcalO (1/sqrtN)$, 分散が$mathcalO (1/N)$である。
定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立し、N$が大きければ以前の作業よりもN$への依存性がよいことを示す。
- 参考スコア(独自算出の注目度): 25.639542287310768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the empirical success of meta reinforcement learning (meta-RL), there
are still a number poorly-understood discrepancies between theory and practice.
Critically, biased gradient estimates are almost always implemented in
practice, whereas prior theory on meta-RL only establishes convergence under
unbiased gradient estimates. In this work, we investigate such a discrepancy.
In particular, (1) We show that unbiased gradient estimates have variance
$\Theta(N)$ which linearly depends on the sample size $N$ of the inner loop
updates; (2) We propose linearized score function (LSF) gradient estimates,
which have bias $\mathcal{O}(1/\sqrt{N})$ and variance $\mathcal{O}(1/N)$; (3)
We show that most empirical prior work in fact implements variants of the LSF
gradient estimates. This implies that practical algorithms "accidentally"
introduce bias to achieve better performance; (4) We establish theoretical
guarantees for the LSF gradient estimates in meta-RL regarding its convergence
to stationary points, showing better dependency on $N$ than prior work when $N$
is large.
- Abstract(参考訳): メタ強化学習(meta-RL)の実証的な成功にもかかわらず、理論と実践の間にはまだまだ多くの相違点がある。
批判的に、偏りの勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。
本研究では,そのような相違について検討する。
特に、(1)偏りのない勾配推定が、内部ループ更新のサンプルサイズに線形に依存する分散$\theta(n)$を持つこと、(2)バイアス$\mathcal{o}(1/\sqrt{n})$と分散$\mathcal{o}(1/n)$を持つ線形化スコア関数 (lsf) 勾配推定を提案すること、(3) 経験的先行研究が実際には lsf 勾配推定の変種を実装していることを示す。
このことは、実用的アルゴリズムが「偶然に」より良い性能を達成するためにバイアスを導入していることを示している; (4) 定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立する。
関連論文リスト
- A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Analysis of the expected $L_2$ error of an over-parametrized deep neural
network estimate learned by gradient descent without regularization [7.977229957867868]
近年の研究では、正規化された経験的リスクに勾配降下を適用して学習した過度パラメータ化されたディープニューラルネットワークによって定義される推定値が、普遍的に一貫していることが示されている。
本稿では、同様の結果を得るために正規化項は必要ないことを示す。
論文 参考訳(メタデータ) (2023-11-24T17:04:21Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。
Open GymAI連続制御タスクの結果。
論文 参考訳(メタデータ) (2022-02-28T15:16:23Z) - A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning [16.824515577815696]
グラディエントベースメタRL(GMRL)は、2段階の最適化手順を維持する手法である。
GMRLで採用されている既存のメタグラディエント推定器は、実際にテキストバイアスを受けていることを示す。
我々は,刑法外学習や低バイアス推定器などの他の手法が一般のGMRLアルゴリズムの勾配バイアスの解消にどのように役立つかを示すため,Iterated Prisoner's Dilemma と Atari のゲームで実験を行った。
論文 参考訳(メタデータ) (2021-12-31T11:56:40Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - A Variance Controlled Stochastic Method with Biased Estimation for
Faster Non-convex Optimization [0.0]
減少勾配(SVRG)の性能を向上させるために, 分散制御勾配(VCSG)という新しい手法を提案する。
ラムダ$はVCSGで導入され、SVRGによる分散の過剰還元を避ける。
$mathcalO(min1/epsilon3/2,n1/4/epsilon)$ 勾配評価の数。
論文 参考訳(メタデータ) (2021-02-19T12:22:56Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。