論文の概要: Variance Reduction for Score Functions Using Optimal Baselines
- arxiv url: http://arxiv.org/abs/2212.13587v1
- Date: Tue, 27 Dec 2022 19:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 16:30:57.090842
- Title: Variance Reduction for Score Functions Using Optimal Baselines
- Title(参考訳): 最適ベースラインを用いたスコア関数の分散低減
- Authors: Ronan Keane and H. Oliver Gao
- Abstract要約: 本稿では,スコア関数の分散化手法であるベースラインについて検討する。
主に強化学習によって動機付けされ、最適な状態依存ベースラインの表現が初めて導かれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many problems involve the use of models which learn probability distributions
or incorporate randomness in some way. In such problems, because computing the
true expected gradient may be intractable, a gradient estimator is used to
update the model parameters. When the model parameters directly affect a
probability distribution, the gradient estimator will involve score function
terms. This paper studies baselines, a variance reduction technique for score
functions. Motivated primarily by reinforcement learning, we derive for the
first time an expression for the optimal state-dependent baseline, the baseline
which results in a gradient estimator with minimum variance. Although we show
that there exist examples where the optimal baseline may be arbitrarily better
than a value function baseline, we find that the value function baseline
usually performs similarly to an optimal baseline in terms of variance
reduction. Moreover, the value function can also be used for bootstrapping
estimators of the return, leading to additional variance reduction. Our results
give new insight and justification for why value function baselines and the
generalized advantage estimator (GAE) work well in practice.
- Abstract(参考訳): 多くの問題は、確率分布を学習したり、ランダム性を何らかの方法で組み込むモデルの使用を含む。
このような問題では、真の予測勾配の計算は難解であるため、モデルパラメータの更新に勾配推定器が用いられる。
モデルパラメータが確率分布に直接影響を及ぼすとき、勾配推定器はスコア関数項を含む。
本稿では,スコア関数の分散低減手法であるベースラインについて述べる。
主に強化学習によって動機づけられたベースラインである最適状態依存ベースラインの表現が初めて導出され、最小分散の勾配推定器が生成される。
最適な基底線が値関数の基底線よりも任意に優れていることを示す例は存在するが、値関数の基底線は通常、分散還元の点で最適基底線と同様に機能する。
さらに、値関数は戻り値の推定器のブートストラップにも使用することができ、さらなる分散低減につながる。
その結果,なぜ値関数のベースラインとGAE(Generalized advantage estimator)が実際にうまく機能するのか,新たな知見と正当化が得られた。
関連論文リスト
- Accelerating Policy Gradient by Estimating Value Function from Prior
Computation in Deep Reinforcement Learning [16.999444076456268]
そこで本研究では,事前計算を用いて値関数を推定し,オンライン政策勾配法におけるサンプル効率を向上する方法について検討する。
特に,対象タスクに対する新しい値関数を事前の値推定と組み合わせて学習する。
結果の値関数は、ポリシー勾配法におけるベースラインとして使用される。
論文 参考訳(メタデータ) (2023-02-02T20:23:22Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Statistical Optimality of Divide and Conquer Kernel-based Functional
Linear Regression [1.7227952883644062]
本稿では,対象関数が基礎となるカーネル空間に存在しないシナリオにおいて,分割・コンカレント推定器の収束性能について検討する。
分解に基づくスケーラブルなアプローチとして、関数線形回帰の分割・収束推定器は、時間とメモリにおけるアルゴリズムの複雑さを大幅に減らすことができる。
論文 参考訳(メタデータ) (2022-11-20T12:29:06Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Gradient Estimation with Discrete Stein Operators [44.64146470394269]
離散分布に対するスタイン演算子に基づく分散化手法を提案する。
提案手法は,同数の関数評価値を持つ最先端推定値よりも,かなり低い分散性を実現する。
論文 参考訳(メタデータ) (2022-02-19T02:22:23Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。