論文の概要: A Unified Noise-Curvature View of Loss of Trainability
- arxiv url: http://arxiv.org/abs/2509.19698v1
- Date: Wed, 24 Sep 2025 02:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.664494
- Title: A Unified Noise-Curvature View of Loss of Trainability
- Title(参考訳): 訓練損失の統一的騒音・曲率ビュー
- Authors: Gunbir Singh Baveja, Mark Schmidt,
- Abstract要約: 継続的学習におけるトレーニング容易性(LoT)の喪失は、タスクが進化するにつれて、ステップが改善されなくなります。
バッチサイズ対応勾配雑音境界と曲率ボラティリティ制御境界の2つの相補的基準を導入する。
このしきい値を用いることで、各レイヤを安全な限界以下に維持する、単純なレイヤごとのスケジューラを構築します。
- 参考スコア(独自算出の注目度): 8.602734307457387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Loss of trainability (LoT) in continual learning occurs when gradient steps no longer yield improvement as tasks evolve, so accuracy stalls or degrades despite adequate capacity and supervision. We analyze LoT incurred with Adam through an optimization lens and find that single indicators such as Hessian rank, sharpness level, weight or gradient norms, gradient-to-parameter ratios, and unit-sign entropy are not reliable predictors. Instead we introduce two complementary criteria: a batch-size-aware gradient-noise bound and a curvature volatility-controlled bound that combine into a per-layer predictive threshold that anticipates trainability behavior. Using this threshold, we build a simple per-layer scheduler that keeps each layers effective step below a safe limit, stabilizing training and improving accuracy across concatenated ReLU (CReLU), Wasserstein regularization, and L2 weight decay, with learned learning-rate trajectories that mirror canonical decay.
- Abstract(参考訳): 継続的学習におけるトレーニング容易性(LoT)の喪失は、勾配ステップがタスクの進化に伴って改善されなくなった場合に起こり、十分な能力と監督能力にもかかわらず精度が低下または低下する。
我々は最適化レンズを用いてAdamで得られたLoTを分析し、ヘッセン階数、シャープネスレベル、重みまたは勾配ノルム、勾配-パラメータ比、単位符号エントロピーのような単一の指標が信頼できないことを発見した。
代わりに、バッチサイズ対応の勾配ノイズ境界と、トレーサビリティの振る舞いを予測する層ごとの予測しきい値に結合した曲率ボラティリティ制御境界という2つの補完的基準を導入します。
このしきい値を用いて、各層を安全な限界以下に維持し、訓練を安定化し、連結ReLU(CreLU)、ワッサーシュタイン正則化、L2重み劣化の精度を向上させるための単純な層間スケジューラを構築する。
関連論文リスト
- Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Feature Learning Beyond the Edge of Stability [8.430481660019451]
層幅パターンを隠蔽した均一な多層パーセプトロンパラメタライゼーションを提案し、勾配勾配下でのトレーニングダイナミクスを解析する。
訓練中の最小バッチ損失の最初の3つのTaylor係数について,シャープネスと特徴学習の関連性を示す式を得る。
論文 参考訳(メタデータ) (2025-02-18T18:23:33Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Estimator Meets Equilibrium Perspective: A Rectified Straight Through
Estimator for Binary Neural Networks Training [35.090598013305275]
ニューラルネットワークのバイナリ化は、ニューラルネットワーク圧縮において支配的なパラダイムである。
本稿では,推定誤差と勾配安定性のバランスをとるために,ReSTE(Rectified Straight Through Estimator)を提案する。
ReSTEは優れたパフォーマンスを持ち、補助モジュールや損失を伴わずに最先端のメソッドを超える。
論文 参考訳(メタデータ) (2023-08-13T05:38:47Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Cost Function Unrolling in Unsupervised Optical Flow [6.656273171776146]
この研究は、教師なしコスト関数でよく使われるトータル変分半ノルムの導出に焦点を当てている。
我々は、コストアンロールと呼ばれる新しい反復スキームにおいて、ハードL1スムーズネス制約に対する微分可能なプロキシを導出する。
論文 参考訳(メタデータ) (2020-11-30T14:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。