論文の概要: Fit Like You Sample: Sample-Efficient Generalized Score Matching from
Fast Mixing Markov Chains
- arxiv url: http://arxiv.org/abs/2306.09332v2
- Date: Tue, 20 Jun 2023 14:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:32:47.330453
- Title: Fit Like You Sample: Sample-Efficient Generalized Score Matching from
Fast Mixing Markov Chains
- Title(参考訳): Fit Like You Sample: 高速ミキシングマルコフチェインのサンプル効率の良い一般化スコアマッチング
- Authors: Yilong Qin, Andrej Risteski
- Abstract要約: スコアマッチング(英: Score matching)とは、比例定数までパラメータ化された確率分布の学習方法である。
任意のマルコフ過程と$mathcalL$の混合時間と、適切に選択された一般化されたスコアマッチング損失との密接な関係を示す。
これは、スコアマッチングにおけるアニールの利点を特徴づける最初の結果である。
- 参考スコア(独自算出の注目度): 19.69904417823125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score matching is an approach to learning probability distributions
parametrized up to a constant of proportionality (e.g. Energy-Based Models).
The idea is to fit the score of the distribution, rather than the likelihood,
thus avoiding the need to evaluate the constant of proportionality. While
there's a clear algorithmic benefit, the statistical "cost'' can be steep:
recent work by Koehler et al. 2022 showed that for distributions that have poor
isoperimetric properties (a large Poincar\'e or log-Sobolev constant), score
matching is substantially statistically less efficient than maximum likelihood.
However, many natural realistic distributions, e.g. multimodal distributions as
simple as a mixture of two Gaussians in one dimension -- have a poor Poincar\'e
constant.
In this paper, we show a close connection between the mixing time of an
arbitrary Markov process with generator $\mathcal{L}$ and an appropriately
chosen generalized score matching loss that tries to fit $\frac{\mathcal{O}
p}{p}$. If $\mathcal{L}$ corresponds to a Markov process corresponding to a
continuous version of simulated tempering, we show the corresponding
generalized score matching loss is a Gaussian-convolution annealed score
matching loss, akin to the one proposed in Song and Ermon 2019. Moreover, we
show that if the distribution being learned is a finite mixture of Gaussians in
$d$ dimensions with a shared covariance, the sample complexity of annealed
score matching is polynomial in the ambient dimension, the diameter the means,
and the smallest and largest eigenvalues of the covariance -- obviating the
Poincar\'e constant-based lower bounds of the basic score matching loss shown
in Koehler et al. 2022. This is the first result characterizing the benefits of
annealing for score matching -- a crucial component in more sophisticated
score-based approaches like Song and Ermon 2019.
- Abstract(参考訳): スコアマッチングは、比例定数(エネルギーベースモデルなど)までパラメータ化された確率分布を学習するアプローチである。
その考え方は、確率ではなく分布のスコアに合わせることであり、比例性の定数を評価する必要性を避けることである。
koehler et al. 2022 による最近の研究は、等角性(大きな poincar\'e や log-sobolev 定数)の悪い分布に対して、スコアマッチングは最大確率よりもかなり統計的に効率が低いことを示した。
しかし、例えば1次元の2つのガウスの混合のように単純であるような多様分布のような多くの自然現実的分布はポアンカルの定数が貧弱である。
本稿では,任意のマルコフ過程と生成器 $\mathcal{l}$ との混合時間と,$\frac{\mathcal{o} p}{p}$ を適合させようとする適度に選択された一般化スコアマッチング損失との密接な関係を示す。
もし$\mathcal{L}$が、模擬テンパリングの連続バージョンに対応するマルコフ過程に対応するならば、対応する一般化されたスコアマッチング損失が、Song and Ermon 2019で提案されたスコアマッチング損失であることを示す。
さらに、学習対象の分布が、共有共分散を持つ$d$次元のガウスの有限混合である場合、アニールスコアマッチングのサンプル複雑性は、周囲次元における多項式であり、平均の直径は、共分散の最小かつ最大の固有値である。
これは、songやermon 2019のようなより洗練されたスコアベースのアプローチにおいて重要な要素である、スコアマッチングのためのアニーリングの利点を特徴付ける最初の結果である。
関連論文リスト
- Efficiently learning and sampling multimodal distributions with data-based initialization [20.575122468674536]
静止測度から少数のサンプルを与えられたマルコフ連鎖を用いて多重モーダル分布をサンプリングする問題を考察する。
マルコフ連鎖が$k$dのスペクトルギャップを持つ場合、静止分布からのサンプルは、静止測度からテレビ距離において$varepsilon$-closeの条件法則を持つサンプルを効率よく生成する。
論文 参考訳(メタデータ) (2024-11-14T01:37:02Z) - Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Learning general Gaussian mixtures with efficient score matching [16.06356123715737]
我々は、$d$次元で$k$ガウシアンの混合を学習する問題を研究する。
我々は、下層の混合成分について分離を前提としない。
我々は、ターゲット混合物から$dmathrmpoly(k/varepsilon)$サンプルを抽出し、サンプル-ポリノミカル時間で実行し、サンプリング器を構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:30:36Z) - Provable benefits of score matching [30.317535687908755]
スコアマッチング損失が計算効率良く最適化できるような分布の自然指数族の最初の例を示す。
確率損失を最適化するためのゼロ階または1階のオラクルの設計はNPハードであることを示す。
スコアマッチング損失の最小化は、計算的かつ統計的に効率的であり、周囲の次元は複雑である。
論文 参考訳(メタデータ) (2023-06-03T03:42:30Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Joint Probability Estimation Using Tensor Decomposition and Dictionaries [3.4720326275851994]
本研究では, 与えられた離散確率と連続確率変数の連立確率の非パラメトリック推定を, それらの(経験的推定)2次元境界値から検討した。
我々は、データを調べて分布の様々なファミリーの辞書を作成し、それを混合した製品の各分解因子を近似するために利用する。
論文 参考訳(メタデータ) (2022-03-03T11:55:51Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Density Ratio Estimation via Infinitesimal Classification [85.08255198145304]
そこで我々は, DRE-inftyを提案する。 DRE-inftyは, 密度比推定(DRE)を, より簡単なサブプロブレムに還元する手法である。
モンテカルロ法にインスパイアされ、中間ブリッジ分布の無限連続体を介して2つの分布の間を滑らかに補間する。
提案手法は,複雑な高次元データセット上での相互情報推定やエネルギーベースモデリングなどの下流タスクにおいて良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T06:26:29Z) - Clustering a Mixture of Gaussians with Unknown Covariance [4.821312633849745]
最大極大推定に基づくMax-Cut整数プログラムを導出する。
最適な速度を得るが、2次サンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発する。
我々は Max-Cut プログラムを$k$-means プログラムに一般化する。
論文 参考訳(メタデータ) (2021-10-04T17:59:20Z) - Robustly Learning any Clusterable Mixture of Gaussians [55.41573600814391]
本研究では,高次元ガウス混合系の対向ロバスト条件下での効率的な学習性について検討する。
理論的に最適に近い誤り証明である$tildeO(epsilon)$の情報を、$epsilon$-corrupted $k$-mixtureで学習するアルゴリズムを提供する。
我々の主な技術的貢献は、ガウス混合系からの新しい頑健な識別可能性証明クラスターであり、これは正方形の定度証明システムによって捉えることができる。
論文 参考訳(メタデータ) (2020-05-13T16:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。