論文の概要: Statistical Efficiency of Score Matching: The View from Isoperimetry
- arxiv url: http://arxiv.org/abs/2210.00726v1
- Date: Mon, 3 Oct 2022 06:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:42:23.690411
- Title: Statistical Efficiency of Score Matching: The View from Isoperimetry
- Title(参考訳): スコアマッチングの統計的効率:イソペリメトリの観点から
- Authors: Frederic Koehler, Alexander Heckett, Andrej Risteski
- Abstract要約: 本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
- 参考スコア(独自算出の注目度): 96.65637602827942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models parametrized up to a normalizing constant (e.g.
energy-based models) are difficult to train by maximizing the likelihood of the
data because the likelihood and/or gradients thereof cannot be explicitly or
efficiently written down. Score matching is a training method, whereby instead
of fitting the likelihood $\log p(x)$ for the training data, we instead fit the
score function $\nabla_x \log p(x)$ -- obviating the need to evaluate the
partition function. Though this estimator is known to be consistent, its
unclear whether (and when) its statistical efficiency is comparable to that of
maximum likelihood -- which is known to be (asymptotically) optimal. We
initiate this line of inquiry in this paper, and show a tight connection
between statistical efficiency of score matching and the isoperimetric
properties of the distribution being estimated -- i.e. the Poincar\'e,
log-Sobolev and isoperimetric constant -- quantities which govern the mixing
time of Markov processes like Langevin dynamics. Roughly, we show that the
score matching estimator is statistically comparable to the maximum likelihood
when the distribution has a small isoperimetric constant. Conversely, if the
distribution has a large isoperimetric constant -- even for simple families of
distributions like exponential families with rich enough sufficient statistics
-- score matching will be substantially less efficient than maximum likelihood.
We suitably formalize these results both in the finite sample regime, and in
the asymptotic regime. Finally, we identify a direct parallel in the discrete
setting, where we connect the statistical properties of pseudolikelihood
estimation with approximate tensorization of entropy and the Glauber dynamics.
- Abstract(参考訳): 正規化定数(例えばエネルギーベースモデル)までパラメータ化された深層生成モデルは、その可能性や勾配を明示的にあるいは効率的に記述できないため、データの可能性を最大化することで訓練が困難である。
スコアマッチングはトレーニング方法であり、トレーニングデータに$\log p(x)$を適合させる代わりに、スコア関数$\nabla_x \log p(x)$ -- 分割関数を評価する必要がなくなる。この推定器が一貫性があることは知られているが、その統計的効率が最大確率の値に匹敵するかどうか(そしていつ)は、(漸近的に)最適であることが知られている。
We initiate this line of inquiry in this paper, and show a tight connection between statistical efficiency of score matching and the isoperimetric properties of the distribution being estimated -- i.e. the Poincar\'e, log-Sobolev and isoperimetric constant -- quantities which govern the mixing time of Markov processes like Langevin dynamics. Roughly, we show that the score matching estimator is statistically comparable to the maximum likelihood when the distribution has a small isoperimetric constant. Conversely, if the distribution has a large isoperimetric constant -- even for simple families of distributions like exponential families with rich enough sufficient statistics -- score matching will be substantially less efficient than maximum likelihood.
これらの結果を有限サンプルレジームと漸近レジームの両方で適切に定式化する。
最後に、離散的な設定における直接平行性を同定し、擬似同型推定の統計的性質をエントロピーの近似テンソル化とグラウバー力学とを結びつける。
関連論文リスト
- Asymptotically Optimal Change Detection for Unnormalized Pre- and Post-Change Distributions [65.38208224389027]
本稿では,非正規化前および後の変化分布のみがアクセス可能である場合にのみ,変化を検出する問題に対処する。
提案手法は,最適性能を示すことが知られている累積サム統計量の推定に基づく。
論文 参考訳(メタデータ) (2024-10-18T17:13:29Z) - Statistical Inference in Tensor Completion: Optimal Uncertainty Quantification and Statistical-to-Computational Gaps [7.174572371800217]
本稿では,不完全かつノイズの多い観測を用いて,テンソル線形形式を統計的に推定する簡易かつ効率的な手法を提案する。
これは、信頼区間の構築、ヘテロスケダティックおよびサブ指数雑音下での推論、同時テストなど、様々な統計的推論タスクに適している。
論文 参考訳(メタデータ) (2024-10-15T03:09:52Z) - On diffusion-based generative models and their error bounds: The log-concave case with full convergence estimates [5.13323375365494]
我々は,強い対数対数データの下での拡散に基づく生成モデルの収束挙動を理論的に保証する。
スコア推定に使用される関数のクラスは、スコア関数上のリプシッツネスの仮定を避けるために、リプシッツ連続関数からなる。
この手法はサンプリングアルゴリズムにおいて最もよく知られた収束率をもたらす。
論文 参考訳(メタデータ) (2023-11-22T18:40:45Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Provable benefits of score matching [30.317535687908755]
スコアマッチング損失が計算効率良く最適化できるような分布の自然指数族の最初の例を示す。
確率損失を最適化するためのゼロ階または1階のオラクルの設計はNPハードであることを示す。
スコアマッチング損失の最小化は、計算的かつ統計的に効率的であり、周囲の次元は複雑である。
論文 参考訳(メタデータ) (2023-06-03T03:42:30Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators
with Massive Data [20.79270369203348]
既存の手法は主に高い計算効率のために置換されたサブサンプリングに焦点を当てている。
まず,準類似度推定の文脈で最適なサブサンプリング確率を導出する。
我々は,分散サブサンプリングフレームワークを開発し,全データの小さなパーティションで統計を同時に計算する。
論文 参考訳(メタデータ) (2020-05-21T02:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。