論文の概要: Pathfinder: Parallel quasi-Newton variational inference
- arxiv url: http://arxiv.org/abs/2108.03782v2
- Date: Wed, 11 Aug 2021 18:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 11:28:25.068495
- Title: Pathfinder: Parallel quasi-Newton variational inference
- Title(参考訳): Pathfinder:並列準ニュートン変分推論
- Authors: Lu Zhang, Bob Carpenter, Andrew Gelman, Aki Vehtari
- Abstract要約: 微分可能なログ密度から大まかにサンプリングする変分法であるPathfinderを導入する。
準ニュートン最適化経路に沿って目標密度に対する正規近似を求める。
近似から、KL (Kulback-Leibler) が真の後部へ発散する最も低い推定値のドローを返す。
- 参考スコア(独自算出の注目度): 13.08856207186789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Pathfinder, a variational method for approximately sampling from
differentiable log densities. Starting from a random initialization, Pathfinder
locates normal approximations to the target density along a quasi-Newton
optimization path, with local covariance estimated using the inverse Hessian
estimates produced by the optimizer. Pathfinder returns draws from the
approximation with the lowest estimated Kullback-Leibler (KL) divergence to the
true posterior. We evaluate Pathfinder on a wide range of posterior
distributions, demonstrating that its approximate draws are better than those
from automatic differentiation variational inference (ADVI) and comparable to
those produced by short chains of dynamic Hamiltonian Monte Carlo (HMC), as
measured by 1-Wasserstein distance. Compared to ADVI and short dynamic HMC
runs, Pathfinder requires one to two orders of magnitude fewer log density and
gradient evaluations, with greater reductions for more challenging posteriors.
Importance resampling over multiple runs of Pathfinder improves the diversity
of approximate draws, reducing 1-Wasserstein distance further and providing a
measure of robustness to optimization failures on plateaus, saddle points, or
in minor modes. The Monte Carlo KL-divergence estimates are embarrassingly
parallelizable in the core Pathfinder algorithm, as are multiple runs in the
resampling version, further increasing Pathfinder's speed advantage with
multiple cores.
- Abstract(参考訳): 微分可能なログ密度からほぼサンプリングするための変分法であるpathfinderを提案する。
ランダム初期化から、パスファインダーは準ニュートン最適化経路に沿って目標密度への正規近似を見つけ、局所共分散はオプティマイザが生成する逆ヘッセン推定を用いて推定する。
Pathfinder は、KL (Kullback-Leibler) が真の後部へ発散する最小推定値で近似から引き出す。
そこで我々はPathfinderを広範囲の後方分布で評価し,その近似ドローイングが自動微分変分推論(ADVI)より優れていることを示すとともに,1-ワッサーシュタイン距離で測定した動的ハミルトニアンモンテカルロ(HMC)の短鎖と同等であることを示した。
ADVI と短い動的 HMC の実行と比較して、Pathfinder はログ密度と勾配の評価を桁違いに減らし、より困難な後部を縮小する。
複数のパスファインダーにまたがる重要性は、近似ドローの多様性を改善し、1-wasserstein距離をさらに削減し、高原、サドルポイント、またはマイナーモードでの最適化失敗に対するロバスト性の尺度を提供する。
Monte Carlo KL-divergenceの推定値は、再サンプリングバージョンにおける複数の実行と同様に、コアPathfinderアルゴリズムにおいて恥ずかしく並列化可能である。
関連論文リスト
- Sequential Monte Carlo for Inclusive KL Minimization in Amortized Variational Inference [3.126959812401426]
SMC-Wakeは,モンテカルロの連続検層を用いて包摂的KL偏差の勾配を推定する補正式である。
シミュレーションと実データの両方を用いた実験では、SMC-Wakeは既存の手法よりも後方を正確に近似する変動分布に適合する。
論文 参考訳(メタデータ) (2024-03-15T18:13:48Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Bayesian Pseudo-Coresets via Contrastive Divergence [5.479797073162603]
対照的な発散を利用して擬似コアセットを構築するための新しい手法を提案する。
これは擬似コアセット構築プロセスにおける近似の必要性を排除する。
複数のデータセットに対して広範な実験を行い、既存のBPC技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T17:13:50Z) - Density Ratio Estimation via Infinitesimal Classification [85.08255198145304]
そこで我々は, DRE-inftyを提案する。 DRE-inftyは, 密度比推定(DRE)を, より簡単なサブプロブレムに還元する手法である。
モンテカルロ法にインスパイアされ、中間ブリッジ分布の無限連続体を介して2つの分布の間を滑らかに補間する。
提案手法は,複雑な高次元データセット上での相互情報推定やエネルギーベースモデリングなどの下流タスクにおいて良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T06:26:29Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - A Cram\'er Distance perspective on Non-crossing Quantile Regression in
Distributional Reinforcement Learning [2.28438857884398]
QR-DQNのような量子ベースのメソッドは、任意の分布を階段分布のパラメトリックサブセットに投影する。
本研究では,不確実性に基づく探索戦略におけるQR-DQNの性能向上のために,量子化の単調性制約が示されていることを示す。
そこで我々は,新しいアルゴリズムを用いてクラム距離を計算し,優れたトレーニング性能を実現する,新しい非交差ニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-01T17:00:25Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Stagnation Detection in Highly Multimodal Fitness Landscapes [0.0]
局所最適化から逃れるためのランダム化探索のメカニズムとして,定常検出法が提案されている。
本稿では,探索半径をより注意深く制御するために,静止検出に付加できる半径メモリと呼ばれる新しい機構について検討する。
このアイデアはSD-RLS$textm$と呼ばれるアルゴリズムで実装され、それまでのステージング検出の変種と比較して高速化された。
論文 参考訳(メタデータ) (2021-04-09T14:33:52Z) - Variance reduction for Random Coordinate Descent-Langevin Monte Carlo [7.464874233755718]
高速収束を提供するランゲヴィン・モンテカルロ(LMC)は勾配近似の計算を必要とする。
実際には、有限差分近似を代理として使用し、高次元では高価である。
本稿では,新しい分散低減手法であるCoordinates Averaging Descent (RCAD)を導入し,過度に損傷を受けたLCCと過度に損傷を受けたLCCを併用する。
論文 参考訳(メタデータ) (2020-06-10T21:08:38Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。