論文の概要: Improved high-dimensional estimation with Langevin dynamics and stochastic weight averaging
- arxiv url: http://arxiv.org/abs/2603.06028v1
- Date: Fri, 06 Mar 2026 08:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.384189
- Title: Improved high-dimensional estimation with Langevin dynamics and stochastic weight averaging
- Title(参考訳): ランゲヴィン力学と確率的ウェイト平均化による高次元推定の改善
- Authors: Stanley Wei, Alex Damian, Jason D. Lee,
- Abstract要約: ランゲヴィン力学は、前よりも平均的な反復を考えると、$n gtrsim d kstar/2 $サンプルで成功する。
前者よりも平均的な反復を考えると、ランゲヴィン力学が$n gtrsim d kstar/2 $サンプルで成功することを示す。
- 参考スコア(独自算出の注目度): 54.172416732517156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant recent work has studied the ability of gradient descent to recover a hidden planted direction $θ^\star \in S^{d-1}$ in different high-dimensional settings, including tensor PCA and single-index models. The key quantity that governs the ability of gradient descent to traverse these landscapes is the information exponent $k^\star$ (Ben Arous et al., (2021)), which corresponds to the order of the saddle at initialization in the population landscape. Ben Arous et al., (2021) showed that $n \gtrsim d^{\max(1, k^\star-1)}$ samples were necessary and sufficient for online SGD to recover $θ^\star$, and Ben Arous et al., (2020) proved a similar lower bound for Langevin dynamics. More recently, Damian et al., (2023) showed it was possible to circumvent these lower bounds by running gradient descent on a smoothed landscape, and that this algorithm succeeds with $n \gtrsim d^{\max(1, k^\star/2)}$ samples, which is optimal in the worst case. This raises the question of whether it is possible to achieve the same rate without explicit smoothing. In this paper, we show that Langevin dynamics can succeed with $n \gtrsim d^{ k^\star/2 }$ samples if one considers the average iterate, rather than the last iterate. The key idea is that the combination of noise-injection and iterate averaging is able to emulate the effect of landscape smoothing. We apply this result to both the tensor PCA and single-index model settings. Finally, we conjecture that minibatch SGD can also achieve the same rate without adding any additional noise.
- Abstract(参考訳): 最近の重要な研究は、テンソルPCAや単一インデックスモデルを含む様々な高次元設定において、隠された植込み方向$θ^\star \in S^{d-1}$を回復する勾配降下の能力について研究している。
これらの景観を横切るための勾配降下の能力を支配する重要な量は、人口景観の初期化時の鞍の順序に対応する情報指数$k^\star$ (Ben Arous et al , (2021) である。
Ben Arous et al , (2021) は、$n \gtrsim d^{\max(1, k^\star-1)}$サンプルが必要であり、オンラインSGDが$θ^\star$を回復するのに十分であることを示した。
最近では、Damian et al , (2023) は、滑らかな地形上で勾配降下を行うことでこれらの下界を回避できることを示し、このアルゴリズムは$n \gtrsim d^{\max(1, k^\star/2)}$サンプルで成功し、最悪の場合には最適であることを示した。
このことは、明示的な滑らか化なしに同じ速度を達成できるかどうかという問題を提起する。
本稿では,最後のイテレーションではなく平均イテレーションを考えると,$n \gtrsim d^{k^\star/2 }$サンプルでランゲヴィン力学が成功することを示す。
鍵となる考え方は、ノイズ注入と反復平均化の組み合わせは、景観の平滑化の効果をエミュレートできるということである。
この結果をテンソルPCAと単一インデックスモデル設定の両方に適用する。
最後に, SGD の最小化は, 付加ノイズを伴わずに同じ値が得られると推測する。
関連論文リスト
- Fast Last-Iterate Convergence of SGD in the Smooth Interpolation Regime [26.711510824243803]
本研究では, 最適騒音が0または0に近い政権において, 円滑な凸目標に対する勾配降下(SGD)の集団収束保証について検討した。
十分に調整されたステップサイズでは、最後の繰り返しに対してほぼ最適な$widetildeO (1/T + sigma_star/sqrtT)$レートを得る。
論文 参考訳(メタデータ) (2025-07-15T12:52:47Z) - Rapid Overfitting of Multi-Pass Stochastic Gradient Descent in Stochastic Convex Optimization [34.451177321785146]
基本凸最適化(SCO)モデルにおけるマルチパス勾配勾配勾配(SGD)のアウトオブサンプル性能について検討した。
SCOの非平滑なケースでは、SGDのごく一部のエポックが既にそのアウト・オブ・サンプルを著しく損なっており、オーバーフィッティングにつながることが示されている。
論文 参考訳(メタデータ) (2025-05-13T07:32:48Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - On the Fine-Grained Hardness of Inverting Generative Models [21.566795159091747]
生成モデル反転は、コンピュータビジョンとNLPを含む多くの現代のアプリケーションにおいて、コア計算プリミティブである。
本稿では,この問題に対する計算硬さの景観を詳細に把握することを目的としている。
強い指数時間仮説 (SETH) の下では、正確な逆転の計算複雑性が$Omega (2n)$で制限されることを示した。
近似反転のより実践的な問題として、モデル範囲の点が与えられた目標に近いかどうかを決定することが目的である。
論文 参考訳(メタデータ) (2023-09-11T20:03:25Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。
本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。
1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文 参考訳(メタデータ) (2021-10-13T17:50:46Z) - A New Framework for Variance-Reduced Hamiltonian Monte Carlo [88.84622104944503]
分散還元型ハミルトン・モンテカルロ法 (HMC) の新たなフレームワークを提案し,$L$-smooth および $m$-strongly log-concave 分布からサンプリングする。
本研究では,SAGA法やSVRG法をベースとした非バイアス勾配推定器を用いて,バッチサイズを小さくすることで,高い勾配効率が得られることを示す。
総合的および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配と勾配HMCアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2021-02-09T02:44:24Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。