論文の概要: Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime
- arxiv url: http://arxiv.org/abs/2603.10485v1
- Date: Wed, 11 Mar 2026 07:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.825645
- Title: Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime
- Title(参考訳): 過パラメータ化レジームにおけるグラディエントドライズのためのデュアルスペースプレコンディショニング
- Authors: Reza Ghane, Danil Akhtiamov, Babak Hassibi,
- Abstract要約: 双対空間プレコンディショニンググラディエントDescentの収束特性について検討した。
また、デュアルスペースプレコンディショニングによるグラディエントDescentの暗黙バイアスについても検討した。
- 参考スコア(独自算出の注目度): 14.991382702354924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we study the convergence properties of the Dual Space Preconditioned Gradient Descent, encompassing optimizers such as Normalized Gradient Descent, Gradient Clipping and Adam. We consider preconditioners of the form $\nabla K$, where $K: \mathbb{R}^p \to \mathbb{R}$ is convex and assume that the latter is applied to train an over-parameterized linear model with loss of the form $\ell({X} {W} - {Y})$, for weights ${W} \in \mathbb{R}^{d \times k}$, labels ${Y} \in \mathbb{R}^{n \times k}$ and data ${X} \in \mathbb{R}^{n \times d}$. Under the aforementioned assumptions, we prove that the iterates of the preconditioned gradient descent always converge to a point ${W}_{\infty} \in \mathbb{R}^{d \times k}$ satisfying ${X}{W}_{\infty} = {Y}$. Our proof techniques are of independent interest as we introduce a novel version of the Bregman Divergence with accompanying identities that allow us to establish convergence. We also study the implicit bias of Dual Space Preconditioned Gradient Descent. First, we demonstrate empirically that, for general $K(\cdot)$, ${W}_\infty$ depends on the chosen learning rate, hindering a precise characterization of the implicit bias. Then, for preconditioners of the form $K({G}) = h(\|{G}\|_F)$, known as \textit{isotropic preconditioners}, we show that ${W}_\infty$ minimizes $\|{W}_\infty - {W}_0\|_F^2$ subject to ${X}{W}_\infty = {Y}$, where ${W}_0$ is the initialization. Denoting the convergence point of GD initialized at ${W}_0$ by ${W}_{\text{GD}, \infty}$, we thus note ${W}_{\infty} = {W}_{\text{GD}, \infty}$ for isotropic preconditioners. Finally, we show that a similar fact holds for general preconditioners up to a multiplicative constant, namely, $\|{W}_0 - {W}_{\infty}\|_F \le c \|{W}_0 - {W}_{\text{GD}, \infty}\|_F$ for a constant $c>0$.
- Abstract(参考訳): 本研究は, 正規化グラディエント・ディフレッシュ, グラディエント・クリッピング, アダムなどの最適化器を含む2次元空間プレコンディショニンググラディエント・ディフレッシュの収束特性について検討する。
ここで $K: \mathbb{R}^p \to \mathbb{R}$ は凸であり、後者は $\ell({X} {W} - {Y})$, for weights ${W} \in \mathbb{R}^{d \times k}$, labels ${Y} \in \mathbb{R}^{n \times k}$, data ${X} \in \mathbb{R}^{n \times d}$ の形で過パラメータ線型モデルを訓練するために適用されると仮定する。
上記の仮定の下では、事前条件付き勾配降下の反復は、常に点 ${W}_{\infty} \in \mathbb{R}^{d \times k}$ に収束し、${X}{W}_{\infty} = {Y}$ を満たすことを証明している。
我々の証明技術は、Bregman Divergenceの新しいバージョンを導入し、それに付随するアイデンティティを導入し、収束を確立するために、独立した関心を持っている。
また、デュアルスペースプレコンディショニングによるグラディエントDescentの暗黙バイアスについても検討した。
まず、一般に$K(\cdot)$の場合、${W}_\infty$は選択した学習率に依存し、暗黙のバイアスの正確な評価を妨げることを実証的に示す。
このとき、$K({G}) = h(\|{G}\|_F)$、あるいは \textit{isotropic preconditioners} に対して、${W}_\infty$ が $\|{W}_\infty - {W}_0\|_F^2$ を ${X}{W}_\infty = {Y}$ に最小化することを示す。
GD の収束点を ${W}_0$ by ${W}_{\text{GD}, \infty}$ で表すと、等方的プレコンディショナーに対して ${W}_{\infty} = {W}_{\text{GD}, \infty}$ となる。
最後に、同様の事実が一般プレコンディショナーに対して乗法定数、すなわち、定数$c>0$に対して $\|{W}_0 - {W}_{\infty}\|_F \le c \|{W}_0 - {W}_{\text{GD}, \infty}\|_F$ まで成り立つことを示す。
関連論文リスト
- Convergence Rate for the Last Iterate of Stochastic Gradient Descent Schemes [0.0]
Fdelta が凸であるときに SHB が$F_*$ で一定運動量に達することを証明した。
また、Fdelta が凸であるときに SHB が$F_*$ の運動量を得ることを示す。
論文 参考訳(メタデータ) (2025-07-09T20:59:23Z) - MLPs at the EOC: Concentration of the NTK [7.826806223782053]
ニューラルタンジェント(NTK)のK_theta濃度について検討した。
我々は、勾配独立性の近似バージョンが有限幅で成り立つことを証明した。
この限界を正確に近似するためには, 十分な濃度に対して, bbN+1$の約$mに対して, $m_k = k2 m$として, 隠蔽層幅を2次的に成長させる必要がある。
論文 参考訳(メタデータ) (2025-01-24T18:58:50Z) - MLPs at the EOC: Spectrum of the NTK [7.826806223782053]
ニューラルスタイル(NTK)$oversetscriptstyleinftyKの特性について検討する。
$Delta_phi = fracb2a2+b2$ は、NTK行列の条件数がその極限に収束する速度を決定する。
論文 参考訳(メタデータ) (2025-01-22T21:12:51Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - On the Regularization Effect of Stochastic Gradient Descent applied to
Least Squares [0.0]
mathbbRn times n$ の可逆 $A に対して $|Ax -b |2 rightarrow min$ に適用される勾配降下の挙動について検討する。
ここでは、$A$ に明示的な定数 $c_A$ が存在して、$$ mathbbE left| Ax_k+1-bright|2_2 leq となることを示す。
論文 参考訳(メタデータ) (2020-07-27T03:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。