論文の概要: A unified view of likelihood ratio and reparameterization gradients
- arxiv url: http://arxiv.org/abs/2105.14900v1
- Date: Mon, 31 May 2021 11:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:53:43.508889
- Title: A unified view of likelihood ratio and reparameterization gradients
- Title(参考訳): 可能性比と再パラメータ化勾配の統一的考察
- Authors: Paavo Parmas and Masashi Sugiyama
- Abstract要約: 我々は、LRとRPが確率質量の運動を追跡する代替方法であることを示すために、第一原理のアプローチを用いる。
LRとRPを組み合わせた全ての可能な推定器の空間は、流れ場によって完全にパラメータ化可能であることを示す。
したがって、より優れたモンテカルロ勾配推定器をどこに探すべきかを明確にする。
- 参考スコア(独自算出の注目度): 91.4645013545015
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reparameterization (RP) and likelihood ratio (LR) gradient estimators are
used to estimate gradients of expectations throughout machine learning and
reinforcement learning; however, they are usually explained as simple
mathematical tricks, with no insight into their nature. We use a first
principles approach to explain that LR and RP are alternative methods of
keeping track of the movement of probability mass, and the two are connected
via the divergence theorem. Moreover, we show that the space of all possible
estimators combining LR and RP can be completely parameterized by a flow field
$u(x)$ and an importance sampling distribution $q(x)$. We prove that there
cannot exist a single-sample estimator of this type outside our characterized
space, thus, clarifying where we should be searching for better Monte Carlo
gradient estimators.
- Abstract(参考訳): Reparameterization (RP) と chance ratio (LR) の勾配推定器は、機械学習と強化学習を通して期待の勾配を推定するために用いられるが、それらは通常単純な数学的トリックとして説明され、その性質について見当たらない。
我々は、LR と RP が確率質量の運動を追跡する代替方法であり、2 つが発散定理によって接続されていることを説明するために第一原理のアプローチを用いる。
さらに,LRとRPを組み合わせたすべての推定器の空間は,フロー場$u(x)$と重要サンプリング分布$q(x)$で完全にパラメータ化可能であることを示す。
特徴空間の外側にこのタイプの単サンプル推定器が存在しないことを証明し、より優れたモンテカルロ勾配推定器を探すべき場所を明らかにする。
関連論文リスト
- Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - Neural Contextual Bandits via Reward-Biased Maximum Likelihood
Estimation [9.69596041242667]
Reward-biased maximum max estimation (RBMLE) は、探索・探索トレードオフに対処するための適応制御文学における古典的な原理である。
本稿では,一般有界報酬関数を用いた文脈的バンディット問題について検討し,RBMLEの原理を適用したNeuralRBMLEを提案する。
両アルゴリズムは、非線形報酬関数を持つ実世界のデータセットにおける最先端の手法と比較して、同等またはより良い経験的後悔を実現する。
論文 参考訳(メタデータ) (2022-03-08T16:33:36Z) - Distribution Regression with Sliced Wasserstein Kernels [45.916342378789174]
分布回帰のための最初のOTに基づく推定器を提案する。
このような表現に基づくカーネルリッジ回帰推定器の理論的性質について検討する。
論文 参考訳(メタデータ) (2022-02-08T15:21:56Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Distributionally Robust Parametric Maximum Likelihood Estimation [13.09499764232737]
パラメトリックな名目分布に対して,最悪の場合のログロスを均一に最小化する,分布的に頑健な最大確率推定器を提案する。
我々の新しい頑健な推定器は、統計的整合性も享受し、回帰と分類の両方に有望な実験結果を提供する。
論文 参考訳(メタデータ) (2020-10-11T19:05:49Z) - Variational Representations and Neural Network Estimation of R\'enyi
Divergences [4.2896536463351]
確率測度 $Q$ と $P$ の間に R'enyi 族の発散式 $R_alpha(Q|P)$ を導出する。
この理論をニューラルネットワーク推定器に適用することにより、ニューラルネットワークファミリーが普遍近似特性の強化されたバージョンのうちの1つを満たすと、対応するR'enyi分散推定器が一貫したことを示す。
論文 参考訳(メタデータ) (2020-07-07T22:34:30Z) - Learning Minimax Estimators via Online Learning [55.92459567732491]
確率分布のパラメータを推定するミニマックス推定器を設計する際の問題点を考察する。
混合ケースナッシュ平衡を求めるアルゴリズムを構築した。
論文 参考訳(メタデータ) (2020-06-19T22:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。