論文の概要: Convergence Dynamics of Over-Parameterized Score Matching for a Single Gaussian
- arxiv url: http://arxiv.org/abs/2511.22069v1
- Date: Thu, 27 Nov 2025 03:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.378884
- Title: Convergence Dynamics of Over-Parameterized Score Matching for a Single Gaussian
- Title(参考訳): 単一ガウスに対する過度パラメータ付きスコアマッチングの収束ダイナミクス
- Authors: Yiran Zhang, Weihang Xu, Mo Zhou, Maryam Fazel, Simon Shaolei Du,
- Abstract要約: 学習モデルの勾配降下について検討し,1つのガウス分布を学習する。
複数の条件下での勾配降下に対する大域収束結果を証明した。
これは、スコアマッチングフレームワークの下で少なくとも3つの成分を持つガウス混合に対する大域収束保証を確立するための最初の試みである。
- 参考スコア(独自算出の注目度): 48.340460104014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score matching has become a central training objective in modern generative modeling, particularly in diffusion models, where it is used to learn high-dimensional data distributions through the estimation of score functions. Despite its empirical success, the theoretical understanding of the optimization behavior of score matching, particularly in over-parameterized regimes, remains limited. In this work, we study gradient descent for training over-parameterized models to learn a single Gaussian distribution. Specifically, we use a student model with $n$ learnable parameters and train it on data generated from a single ground-truth Gaussian using the population score matching objective. We analyze the optimization dynamics under multiple regimes. When the noise scale is sufficiently large, we prove a global convergence result for gradient descent. In the low-noise regime, we identify the existence of a stationary point, highlighting the difficulty of proving global convergence in this case. Nevertheless, we show convergence under certain initialization conditions: when the parameters are initialized to be exponentially small, gradient descent ensures convergence of all parameters to the ground truth. We further prove that without the exponentially small initialization, the parameters may not converge to the ground truth. Finally, we consider the case where parameters are randomly initialized from a Gaussian distribution far from the ground truth. We prove that, with high probability, only one parameter converges while the others diverge, yet the loss still converges to zero with a $1/τ$ rate, where $τ$ is the number of iterations. We also establish a nearly matching lower bound on the convergence rate in this regime. This is the first work to establish global convergence guarantees for Gaussian mixtures with at least three components under the score matching framework.
- Abstract(参考訳): スコアマッチングは、特に拡散モデルにおいて、スコア関数の推定を通じて高次元データ分布の学習に使用される現代の生成モデルにおいて、中心的な訓練対象となっている。
経験的成功にもかかわらず、スコアマッチングの最適化挙動の理論的理解は、特に過度にパラメータ化された状態において限られている。
本研究では,1つのガウス分布を学習するために,過パラメータモデルの学習のための勾配勾配について検討する。
具体的には, 学習可能なパラメータが$n$の学生モデルを用いて, 集団スコアマッチングの目的を用いて, 1つの接地トラスガウスから生成されたデータに基づいて学習する。
複数の条件下で最適化力学を解析する。
ノイズスケールが十分に大きい場合、勾配降下に対する大域収束結果を示す。
低雑音状態においては、定常点の存在を識別し、この場合のグローバル収束を証明するのが困難であることを示す。
それでも、ある初期化条件の下で収束を示す:パラメータが指数関数的に小さくなるように初期化されると、勾配降下は全てのパラメータの基底真理への収束を保証する。
さらに、指数関数的に小さな初期化がなければ、パラメータが基底的真理に収束しないことが証明される。
最後に,パラメータがガウス分布からランダムに初期化される場合を考える。
高い確率で、1つのパラメータだけが収束し、他のパラメータは分岐するが、損失は1/τ$の速度で0に収束し、$τ$は反復数である。
我々はまた、この体制における収束率にほぼ一致する低い境界を確立する。
これは、スコアマッチングフレームワークの下で少なくとも3つの成分を持つガウス混合に対する大域収束保証を確立するための最初の試みである。
関連論文リスト
- Estimation of Toeplitz Covariance Matrices using Overparameterized Gradient Descent [1.7188280334580195]
単純降下レンズ(GD)によるToeplitz共分散推定の再検討
K = P$ のとき、GD は準最適解に収束する。
本稿では,振幅と周波数の学習率の異なる高速なGD変種を提案する。
論文 参考訳(メタデータ) (2025-11-03T14:07:53Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Efficient Numerical Integration in Reproducing Kernel Hilbert Spaces via Leverage Scores Sampling [15.55478112106342]
本稿では,積分を対象確率測度に対して,積分の点的評価のみを用いて近似する問題を考察する。
本稿では,初期観測から得られる近似レバレッジスコアを用いて,$mn$サンプルのランダムな小部分集合を均一に描画するか,あるいは近似的に評価する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T17:44:18Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Gradient flows and randomised thresholding: sparse inversion and
classification [0.0]
スパースインバージョンと分類問題は、現代のデータサイエンスとイメージングにおいて至るところに存在している。
分類において、例えば、データの忠実度項と非滑らかなギンズバーグ-ランダウエネルギーの和を考える。
標準(サブ)勾配降下法はそのような問題にアプローチする際に非効率であることが示されている。
論文 参考訳(メタデータ) (2022-03-22T09:21:14Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。