論文の概要: Chebyshev Moment Regularization (CMR): Condition-Number Control with Moment Shaping
- arxiv url: http://arxiv.org/abs/2510.21772v1
- Date: Fri, 17 Oct 2025 06:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.966537
- Title: Chebyshev Moment Regularization (CMR): Condition-Number Control with Moment Shaping
- Title(参考訳): Chebyshev Moment Regularization (CMR) : モーメントシェイピングによるコンディション・ノーバー制御
- Authors: Jinwoo Baek,
- Abstract要約: textbfChebyshev Moment Regularization (CMR)を導入する。
CMRは、ログ条件プロキシ形状と内部をチェビシェフモーメントを介して、スペクトルエッジを共同で制御する。
これらの結果は、テキスト最適化によるスペクトル事前条件付け(英語版)をサポートし、安定的で正確な学習のために、よく条件付けられた状態に向けて直接ステアリングする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce \textbf{Chebyshev Moment Regularization (CMR)}, a simple, architecture-agnostic loss that directly optimizes layer spectra. CMR jointly controls spectral edges via a log-condition proxy and shapes the interior via Chebyshev moments, with a decoupled, capped mixing rule that preserves task gradients. We prove strictly monotone descent for the condition proxy, bounded moment gradients, and orthogonal invariance. In an adversarial ``$\kappa$-stress'' setting (MNIST, 15-layer MLP), \emph{compared to vanilla training}, CMR reduces mean layer condition numbers by $\sim\!10^3$ (from $\approx3.9\!\times\!10^3$ to $\approx3.4$ in 5 epochs), increases average gradient magnitude, and restores test accuracy ( $\approx10\%\!\to\!\approx86\%$ ). These results support \textbf{optimization-driven spectral preconditioning}: directly steering models toward well-conditioned regimes for stable, accurate learning.
- Abstract(参考訳): 本稿では,レイヤスペクトルを直接最適化する,シンプルなアーキテクチャに依存しない損失である‘textbf{Chebyshev Moment Regularization(CMR)’を紹介する。
CMRはログ条件プロキシを通じてスペクトルエッジを共同制御し、Chebyshevモーメントを介して内部を形成する。
我々は条件プロキシ、有界モーメント勾配、直交不変量に対して厳密な単調降下を証明した。
逆数 ``$\kappa$-stress'' (MNIST, 15-layer MLP), \emph{compared to vanilla training} では、平均層条件番号を$\sim\!
10^3$ ($\approx3.9\!
タイムズ!
10^3$ to $\approx3.4$ in 5 epochs)、平均勾配等級を高め、テスト精度($\approx10\%\!
やれ!
\approx86\%$ )。
これらの結果は、安定かつ正確な学習のために、よく条件付けされた状態に向けて直接ステアリングされたモデルである「textbf{optimization-driven spectrum preconditioning」をサポートする。
関連論文リスト
- Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Numerical Fragility in Transformers: A Layer-wise Theory for Explaining, Forecasting, and Mitigating Instability [0.0]
エラーがいつどこで発生するかを予測する一階のモジュールワイズ理論を提示する。
自己注意のために、3つの解釈可能な診断に分解する層間境界を導出する。
また、精度と幅を意識したLayerNormインジケータ$rho_rm LN$も導入する。
論文 参考訳(メタデータ) (2025-10-17T01:03:02Z) - OrthoGrad Improves Neural Calibration [0.0]
$perp$Gradは、過信に対処するために降下方向を制約する。
$perp$Gradは、最適化のための幾何学的な修正である。
論文 参考訳(メタデータ) (2025-06-04T22:12:46Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Faster Perturbed Stochastic Gradient Methods for Finding Local Minima [92.99933928528797]
局所最小値を求めるための高速な摂動勾配フレームワークであるtttPullbackを提案する。
SARAH/SP や STORM のような勾配推定器を用いたプルバックは $(epsilon, epsilon_H)$approximate local minima を $tilde O(epsilon-3 + H-6)$ 内で見つけることができる。
我々のフレームワークの中核となる考え方は、勾配評価の平均運動を制御するステップサイズのプルバック方式である。
論文 参考訳(メタデータ) (2021-10-25T07:20:05Z) - A New Framework for Variance-Reduced Hamiltonian Monte Carlo [88.84622104944503]
分散還元型ハミルトン・モンテカルロ法 (HMC) の新たなフレームワークを提案し,$L$-smooth および $m$-strongly log-concave 分布からサンプリングする。
本研究では,SAGA法やSVRG法をベースとした非バイアス勾配推定器を用いて,バッチサイズを小さくすることで,高い勾配効率が得られることを示す。
総合的および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配と勾配HMCアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2021-02-09T02:44:24Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Logsmooth Gradient Concentration and Tighter Runtimes for Metropolized
Hamiltonian Monte Carlo [23.781520510778716]
これは1次関数情報のみを用いたログコンケーブ分布に対する最初の高精度混合時間結果である。
我々は、$kappa$への依存が標準のMetropolized firstorderメソッドであることを示す。
論文 参考訳(メタデータ) (2020-02-10T22:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。