Fugu-MT 論文翻訳(概要): Can Entry-Wise Clipping Give Spectral Control of Stochastic Gradients?

論文の概要: Can Entry-Wise Clipping Give Spectral Control of Stochastic Gradients?

arxiv url: http://arxiv.org/abs/2605.27733v1
Date: Tue, 26 May 2026 22:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.574954
Title: Can Entry-Wise Clipping Give Spectral Control of Stochastic Gradients?
Title（参考訳）: 確率勾配のスペクトル制御は可能か?
Authors: Zitao Song, Cedar Site Bai, Zhe Zhang, Brian Bullins, David F. Gleich,
Abstract要約: 損失スパイクのようなトレーニングの不安定性は、しばしば勾配ノイズの結果である。このトレードオフはバランスが取れます。スペクトル正規化の前にエントリワイドクリッピングを適用すると、Muon上には$sim2%$トークンセーブが生成される。
参考スコア（独自算出の注目度）: 14.136955342888987
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Training instabilities such as loss spikes are frequently the result of stochastic gradient noise. Because of rare expressions in language training data, and multiple layer composition, the noise impact is heavy-tailed and survives mini-batch averaging. Existing remedies trade off structure against cost: vector-norm clipping ignores the matrix structure of weight updates, while spectral normalization (e.g., Muon (Jordan et al., 2024)) respects it at additional cost. We show that this trade-off can be balanced. Real gradient noise appears to be similar to entry-wise heavy-tailed contamination, and a first-order perturbation analysis reveals a localization property of such noise, under which a simple entry-wise method achieves spectral control. Exploiting this, we derive a tractable surrogate for the Bayes-optimal entry-wise estimator under a Gaussian signal prior. We establish $O(ε^{-4})$ convergence guarantee under Cauchy-contaminated noise. Empirically, we find that smooth shrinkage improves Adam on NanoGPT pretraining, saving ${\sim}7\%$ of training tokens. We further find that applying the entry-wise clipping before spectral normalization yields a ${\sim}2\%$ token saving on top of Muon.
Abstract（参考訳）: 損失スパイクなどのトレーニングの不安定性は、確率的勾配ノイズの結果であることが多い。言語学習データにおける稀な表現と複数層構成のため、ノイズの影響は重く抑えられ、最小バッチ平均化に耐えられる。ベクターノルムクリッピングは重み付けの行列構造を無視し、スペクトル正規化(例えば、ムオン(ヨルダン等、2024年)はさらなるコストでそれを尊重する。このトレードオフはバランスが取れます。実勾配ノイズはエントリーワイド重尾汚染に類似しており、一階摂動解析によりそのようなノイズの局在特性が明らかとなり、簡単なエントリーワイド法でスペクトル制御が達成される。これを実行すると、ガウス信号の下でベイズ最適エントリーワイド推定器のトラクタブルサロゲートを導出する。我々はコーシー汚染雑音下で$O(ε^{-4})$収束保証を確立する。経験的に、スムーズな縮小はNanoGPT事前トレーニングにおいてAdamを改善し、${\sim}7\%のトレーニングトークンを節約する。さらに、スペクトル正規化の前にエントリワイドクリッピングを適用すると、Muon上に${\sim}2\%のトークンセーブが得られることが分かる。

関連論文リスト

DynMuon: A Dynamic Spectral Shaping View of Muon [12.175075916077702]
M$を$Up Vtop$に置き換え、あるパラメータを$p$にします。そこで我々はDynMuonを提案する。DynMuonは、トレーニング時に正からわずかに負に$p$をスケジュールする効率的な動的スペクトル整形法である。
論文参考訳（メタデータ） (2026-05-16T18:30:11Z)
The Malignant Tail: Spectral Segregation of Label Noise in Over-Parameterized Networks [0.0]
ネットワークが機能的に信号とノイズを分離する障害モードであるMorignant Tailを実験的に分離する。トレーニングされていないネットワークは、ノイズを積極的に分離し、ノイズに支配されたサブスペースを外科的にプルークするポストホックスペクトルトラニケーションを実現する。以上の結果から,ラベルノイズ下では,余剰スペクトル容量は無害な冗長性ではなく,構造的負債が潜んでいることが示唆された。
論文参考訳（メタデータ） (2026-03-02T16:39:42Z)
Why is Normalization Preferred? A Worst-Case Complexity Theory for Stochastically Preconditioned SGD under Heavy-Tailed Noise [17.899443444882888]
不等式事前条件勾配降下(SPSGD)に対する最悪のケース複雑性理論を開発する。正規化は問題パラメータが未知の場合には$mathcalO(T-fracp-13p-2)$,$mathcalO(T-fracp-12p)$で1次定常点への収束を保証する。対照的に、プリコンディショナーと勾配推定との統計的依存により、クリッピングが最悪の場合に収束しないことが証明される。
論文参考訳（メタデータ） (2026-02-13T19:29:17Z)
Information Hidden in Gradients of Regression with Target Noise [2.8911861322232686]
勾配だけでヘッセンが明らかになることを示す。我々はガウス以下の入力の下で非漸近作用素ノルム保証を提供する。
論文参考訳（メタデータ） (2026-01-26T14:50:16Z)
$ε$-Softmax: Approximating One-Hot Vectors for Mitigating Label Noise [99.91399796174602]
ノイズラベルは、正確なディープニューラルネットワークをトレーニングする上で共通の課題となる。我々は,ソフトマックス層の出力を制御可能な誤差で1ホットベクトルに近似させる,$epsilon$-softmaxを提案する。理論的には、$epsilon$-softmaxは、ほぼ任意の損失関数に対して制御可能な過剰リスクを持つ耐雑音学習を実現することができる。
論文参考訳（メタデータ） (2025-08-04T13:10:48Z)
Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文参考訳（メタデータ） (2023-11-07T17:39:17Z)
Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文参考訳（メタデータ） (2023-02-19T15:24:37Z)
Optimal Online Generalized Linear Regression with Stochastic Noise and Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。本稿では,FTRLに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T08:25:26Z)
Consistency Regularization for Certified Robustness of Smoothed Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文参考訳（メタデータ） (2020-06-07T06:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。