論文の概要: Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval
- arxiv url: http://arxiv.org/abs/2601.22652v1
- Date: Fri, 30 Jan 2026 07:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.291987
- Title: Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval
- Title(参考訳): スペクトルグラディエントDescenceは異方性駆動型ミスサライメントを緩和する:相検索の事例研究
- Authors: Guillaume Braun, Han Bao, Wei Huang, Masaaki Imaizumi,
- Abstract要約: スペクトル勾配法は、スケールを捨てながら方向情報を保存することによって勾配の更新を変更する。
非線形位相探索モデルの動的解析により,これらの利得のメカニズムを解明する。
- 参考スコア(独自算出の注目度): 13.218607858857295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spectral gradient methods, such as the Muon optimizer, modify gradient updates by preserving directional information while discarding scale, and have shown strong empirical performance in deep learning. We investigate the mechanisms underlying these gains through a dynamical analysis of a nonlinear phase retrieval model with anisotropic Gaussian inputs, equivalent to training a two-layer neural network with the quadratic activation and fixed second-layer weights. Focusing on a spiked covariance setting where the dominant variance direction is orthogonal to the signal, we show that gradient descent (GD) suffers from a variance-induced misalignment: during the early escaping stage, the high-variance but uninformative spike direction is multiplicatively amplified, degrading alignment with the true signal under strong anisotropy. In contrast, spectral gradient descent (SpecGD) removes this spike amplification effect, leading to stable alignment and accelerated noise contraction. Numerical experiments confirm the theory and show that these phenomena persist under broader anisotropic covariances.
- Abstract(参考訳): Muonオプティマイザのようなスペクトル勾配法は、スケールを捨てながら方向情報を保存することによって勾配の更新を修正し、ディープラーニングにおいて強い経験的性能を示した。
本研究では, 非線形位相探索モデルと異方性ガウス入力の動的解析により, 二次活性化と固定二層重みを持つ2層ニューラルネットワークのトレーニングと等価なメカニズムについて検討する。
信号に対して支配的な分散方向が直交するスパイク共分散系に焦点をあてて、勾配降下(GD)が分散誘導的不整合(英語版)に悩まされることを示し、初期脱落段階では、高分散だが非形式的なスパイク方向が乗算的に増幅され、強い異方性の下で真の信号と整合する。
対照的にスペクトル勾配降下(SpecGD)は、このスパイク増幅効果を除去し、安定したアライメントとノイズ収縮を加速させる。
数値実験により理論が確定し、より広い異方性共分散の下でこれらの現象が持続することを示した。
関連論文リスト
- Fast Escape, Slow Convergence: Learning Dynamics of Phase Retrieval under Power-Law Data [15.766916122461923]
スケーリング法則は、データ、計算、トレーニング時間によって学習のパフォーマンスがどのように改善され、現代のディープラーニングにおける中心的なテーマとなったかを記述している。
共分散スペクトルがパワー則に従う異方性ガウス入力による位相探索を正準非線形モデルで行う。
力学が二次元系に崩壊する等方性の場合とは異なり、異方性は、方程式の無限階層が要約統計の進化を支配する定性的に新しい状態をもたらす。
論文 参考訳(メタデータ) (2025-11-24T00:21:17Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling [53.61290359948953]
タンジェンシャル増幅誘導(TAG)は、下層の拡散モデルを変更することなく、軌道信号のみで動作する。
この誘導過程を1次テイラー展開を利用して定式化する。
TAGは、最小限の計算加算で拡散サンプリング忠実度を改善する、プラグアンドプレイのアーキテクチャに依存しないモジュールである。
論文 参考訳(メタデータ) (2025-10-06T06:53:29Z) - Generative Model Inversion Through the Lens of the Manifold Hypothesis [98.37040155914595]
モデル反転攻撃(MIA)は、訓練されたモデルからクラス表現型サンプルを再構成することを目的としている。
最近の生成的MIAは、生成的敵ネットワークを使用して、反転過程を導く画像の事前学習を行う。
論文 参考訳(メタデータ) (2025-09-24T14:39:25Z) - Kernel-Smoothed Scores for Denoising Diffusion: A Bias-Variance Study [3.265950484493743]
拡散モデルは暗記しがちである。
スコアの正規化は、トレーニングデータセットのサイズを増やすのと同じ効果がある。
この視点は、拡散をデノナイズする2つの規則化機構を強調する。
論文 参考訳(メタデータ) (2025-05-28T20:22:18Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Learning in PINNs: Phase transition, total diffusion, and generalization [1.8802875123957965]
勾配信号-雑音比(SNR)のレンズを用いた完全連結ニューラルネットワークの学習力学について検討する。
全拡散と呼ばれる第3相を同定する」。
本稿では,情報誘起圧縮現象を考察し,全拡散相におけるアクティベーションの顕著な圧縮を示唆する。
論文 参考訳(メタデータ) (2024-03-27T12:10:30Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。