論文の概要: Log-Concave Coupling for Sampling Neural Net Posteriors
- arxiv url: http://arxiv.org/abs/2407.18802v1
- Date: Fri, 26 Jul 2024 15:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:59:26.384317
- Title: Log-Concave Coupling for Sampling Neural Net Posteriors
- Title(参考訳): ニューラルネット後部サンプリングのためのログコンケーブ結合
- Authors: Curtis McDonald, Andrew R Barron,
- Abstract要約: 単一層ニューラルネットワークのサンプリングアルゴリズムを提案する。
このアルゴリズムは、後続密度の$w$と補助確率変数$xi$との結合に基づいている。
補助確率変数 $xi$ の辺密度のスコアは$w|xi$ 以上の期待値によって決定される。
- 参考スコア(独自算出の注目度): 0.4604003661048266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present a sampling algorithm for single hidden layer neural networks. This algorithm is built upon a recursive series of Bayesian posteriors using a method we call Greedy Bayes. Sampling of the Bayesian posterior for neuron weight vectors $w$ of dimension $d$ is challenging because of its multimodality. Our algorithm to tackle this problem is based on a coupling of the posterior density for $w$ with an auxiliary random variable $\xi$. The resulting reverse conditional $w|\xi$ of neuron weights given auxiliary random variable is shown to be log concave. In the construction of the posterior distributions we provide some freedom in the choice of the prior. In particular, for Gaussian priors on $w$ with suitably small variance, the resulting marginal density of the auxiliary variable $\xi$ is proven to be strictly log concave for all dimensions $d$. For a uniform prior on the unit $\ell_1$ ball, evidence is given that the density of $\xi$ is again strictly log concave for sufficiently large $d$. The score of the marginal density of the auxiliary random variable $\xi$ is determined by an expectation over $w|\xi$ and thus can be computed by various rapidly mixing Markov Chain Monte Carlo methods. Moreover, the computation of the score of $\xi$ permits methods of sampling $\xi$ by a stochastic diffusion (Langevin dynamics) with drift function built from this score. With such dynamics, information-theoretic methods pioneered by Bakry and Emery show that accurate sampling of $\xi$ is obtained rapidly when its density is indeed strictly log-concave. After which, one more draw from $w|\xi$, produces neuron weights $w$ whose marginal distribution is from the desired posterior.
- Abstract(参考訳): 本研究では,単一層ニューラルネットワークのサンプリングアルゴリズムを提案する。
このアルゴリズムは、私たちがGreedy Bayesと呼ぶ方法を用いて、ベイズ後部の再帰的列の上に構築されている。
ニューロンの重みベクトルに対するベイズ後方のサンプリングに$w$ of dimension $d$は、その多モード性のために困難である。
この問題に対処するアルゴリズムは、後続密度の$w$と補助確率変数$\xi$との結合に基づいている。
補助確率変数が与えられたニューロンの重みの逆条件$w|\xi$は、対数凹である。
後続分布の構成において、我々は前者の選択にいくつかの自由を与える。
特に、ガウス以前の$w$が好ましく小さな分散を持つ場合、補助変数 $\xi$ の余辺密度は、すべての次元の$d$に対して厳密な対数となることが証明される。
単位 $\ell_1$ の前の一様の場合、$\xi$ の密度が十分に大きい$d$ に対して厳密な対数であるという証拠が与えられる。
補助確率変数 $\xi$ の辺密度のスコアは$w|\xi$ 以上の期待値で決定されるので、マルコフ・チェイン・モンテカルロの様々な高速混合法で計算することができる。
さらに、$\xi$のスコアの計算により、このスコアからドリフト関数が構築された確率拡散(Langevin dynamics)により$\xi$をサンプリングする方法が可能である。
このような力学を用いて、Bakry と Emery の先駆的な情報理論手法は、その密度が厳密に対数凹であるときに、$\xi$ の正確なサンプリングが急速に得られることを示した。
その後、$w|\xi$からもう1つの引き分けは、所望の後方から辺分布を持つニューロン重みを$w$で生成する。
関連論文リスト
- Outsourced diffusion sampling: Efficient posterior inference in latent spaces of generative models [65.71506381302815]
本稿では、$p(mathbfxmidmathbfy) propto p_theta(mathbfx)$ という形式の後続分布からサンプリングするコストを償却する。
多くのモデルと関心の制約に対して、ノイズ空間の後方はデータ空間の後方よりも滑らかであり、そのような償却推論に対してより快適である。
論文 参考訳(メタデータ) (2025-02-10T19:49:54Z) - Diffusion at Absolute Zero: Langevin Sampling Using Successive Moreau Envelopes [52.69179872700035]
本稿では,$pi(x)proptoexp(-U(x))$という形のGibbs分布から,潜在的に$U(x)$でサンプリングする方法を提案する。
拡散モデルに着想を得て、ターゲット密度の近似の列 $(pit_k)_k$ を考えることを提案し、そこで$pit_kapprox pi$ for $k$ small に対して $pit_k$ は、$k$のサンプリングに好適な性質を示す。
論文 参考訳(メタデータ) (2025-02-03T13:50:57Z) - Polynomial time sampling from log-smooth distributions in fixed dimension under semi-log-concavity of the forward diffusion with application to strongly dissipative distributions [9.48556659249574]
固定次元の複雑なサンプリングアルゴリズムを提案する。
我々は,提案アルゴリズムが予測される$epsilon$誤差を$KL$ばらつきで達成することを証明する。
応用として、$L$-log-smooth分布からサンプリングする問題に対する指数関数的複雑性の改善を導出する。
論文 参考訳(メタデータ) (2024-12-31T17:51:39Z) - Sum-of-squares lower bounds for Non-Gaussian Component Analysis [33.80749804695003]
非ガウス成分分析(Non-Gaussian Component Analysis、NGCA)は、高次元データセットにおいて非ガウス方向を求める統計的タスクである。
本稿では Sum-of-Squares フレームワークにおける NGCA の複雑さについて考察する。
論文 参考訳(メタデータ) (2024-10-28T18:19:13Z) - Matching the Statistical Query Lower Bound for $k$-Sparse Parity Problems with Sign Stochastic Gradient Descent [83.85536329832722]
我々は、2層完全連結ニューラルネットワーク上での符号勾配降下(SGD)による$k$スパースパリティ問題を解く。
このアプローチは、$d$次元ハイパーキューブ上での$k$スパースパリティ問題を効率的に解くことができることを示す。
次に、符号SGDを持つトレーニングニューラルネットワークが、この優れたネットワークを効果的に近似し、小さな統計的誤差で$k$-parity問題を解く方法を示す。
論文 参考訳(メタデータ) (2024-04-18T17:57:53Z) - Debiasing and a local analysis for population clustering using
semidefinite programming [1.9761774213809036]
サブガウス分布の混合から引き出された小さいデータサンプルを$n$で分割する問題を考察する。
この研究は、起源の個体数に応じた集団化の応用によって動機付けられている。
論文 参考訳(メタデータ) (2024-01-16T03:14:24Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Hamiltonian Monte Carlo for efficient Gaussian sampling: long and random
steps [0.0]
Hamiltonian Monte Carlo (HMC) は密度$e-f(x)$の高次元分布からサンプリングするマルコフ連鎖アルゴリズムである。
HMCは,$widetildeO(sqrtkappa d1/4 log(1/varepsilon)$グラデーションクエリを用いて,全変動距離で$varepsilon$-closeの分布からサンプリングできることを示す。
論文 参考訳(メタデータ) (2022-09-26T15:29:29Z) - Convergence of Sparse Variational Inference in Gaussian Processes
Regression [29.636483122130027]
計算コストが$mathcalO(log N)2D(log N)2)$の手法を推論に利用できることを示す。
論文 参考訳(メタデータ) (2020-08-01T19:23:34Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。