論文の概要: Beta-Scheduling: Momentum from Critical Damping as a Diagnostic and Correction Tool for Neural Network Training
- arxiv url: http://arxiv.org/abs/2603.28921v1
- Date: Mon, 30 Mar 2026 18:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.676391
- Title: Beta-Scheduling: Momentum from Critical Damping as a Diagnostic and Correction Tool for Neural Network Training
- Title(参考訳): Beta-Scheduling:ニューラルネットワークトレーニングのための診断・補正ツールとしてのクリティカルダンピングからのモメンタム
- Authors: Ivan Pasichnyk,
- Abstract要約: 標準ニューラルネットワークトレーニングでは、1964年までの規則である定数運動量(典型的には0.9)を用いており、その最適性について理論的に限定されている。
このベータスケジュールは、既存の学習率スケジュールを超えて、ゼロのフリーパラメータを必要とする。
ResNet-18/CIFAR-10では、ベータスケジューリングにより、一定の運動量よりも90%の精度で1.9倍の収束が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard neural network training uses constant momentum (typically 0.9), a convention dating to 1964 with limited theoretical justification for its optimality. We derive a time-varying momentum schedule from the critically damped harmonic oscillator: mu(t) = 1 - 2*sqrt(alpha(t)), where alpha(t) is the current learning rate. This beta-schedule requires zero free parameters beyond the existing learning rate schedule. On ResNet-18/CIFAR-10, beta-scheduling delivers 1.9x faster convergence to 90% accuracy compared to constant momentum. More importantly, the per-layer gradient attribution under this schedule produces a cross-optimizer invariant diagnostic: the same three problem layers are identified regardless of whether the model was trained with SGD or Adam (100% overlap). Surgical correction of only these layers fixes 62 misclassifications while retraining only 18% of parameters. A hybrid schedule -- physics momentum for fast early convergence, then constant momentum for the final refinement -- reaches 95% accuracy fastest among five methods tested. The main contribution is not an accuracy improvement but a principled, parameter-free tool for localizing and correcting specific failure modes in trained networks.
- Abstract(参考訳): 標準ニューラルネットワークトレーニングでは、1964年までの規則である定数運動量(典型的には0.9)を用いており、その最適性について理論的に限定されている。
臨界減衰振動子mu(t) = 1 - 2*sqrt(alpha(t)) から時変モーメントスケジュールを導出する。
このベータスケジュールは、既存の学習率スケジュールを超えて、ゼロのフリーパラメータを必要とする。
ResNet-18/CIFAR-10では、ベータスケジューリングは、一定運動量に比べて90%の精度で1.9倍の速度で収束する。
さらに、このスケジュールの下では、階層ごとの勾配属性はクロス最適化不変の診断をもたらす:同じ3つの問題層は、モデルがSGDまたはAdamでトレーニングされたかどうかにかかわらず識別される(100%重複)。
これらの層のみの外科的修正では62の誤分類が修正され、パラメータの18%が再訓練された。
高速な早期収束のための物理運動量、最終改良のための一定の運動量というハイブリッドなスケジュールは、テストされた5つの手法の中で95%の精度に達した。
主な貢献は精度の向上ではなく、訓練されたネットワークで特定の障害モードをローカライズし修正するための、原則化されたパラメータフリーツールである。
関連論文リスト
- Robust Physics Discovery from Highly Corrupted Data: A PINN Framework Applied to the Nonlinear Schrödinger Equation [0.0]
重騒音条件下でのNVIDIA Schrodinger Equation(LSEN)から物理パラメータを復元できるディープラーニングフレームワークを実証する。
相対誤差が0.2%未満の非線形係数ベータを500個のスパースサンプルデータポイントのみを用いて再構成する。
その結果,物理学に基づく正則化は高い測定の不確実性に対して有効なフィルタとして機能することが示唆された。
論文 参考訳(メタデータ) (2026-01-07T18:43:11Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文 参考訳(メタデータ) (2025-10-22T18:01:07Z) - Assessing the Limits of Graph Neural Networks for Vapor-Liquid Equilibrium Prediction: A Cryogenic Mixture Case Study [3.765010805872486]
本研究では、GERG-2008/CoolPropデータに基づいてトレーニングされた構造対応グラフニューラルネットワーク(GNN; DimeNet++)が、状態方程式(EoS)の実用的なサロゲートとして機能するかどうかを問う。
我々は90~200K以上の3次データセットと100バーへの圧力を生成し、15%密度フィルタ(5,200状態を1,516に還元する)でキュレートし、各状態と軽量な分子力学スナップショットを組み合わせて構造特性の供給を行う。
我々は、構成上、この研究におけるサロゲートは、VLEに対して平衡対応可能ではなく、実行時利益を提供しない、と結論づける。
論文 参考訳(メタデータ) (2025-09-10T16:10:58Z) - Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Efficiently Training Time-to-First-Spike Spiking Neural Networks from Scratch [39.05124192217359]
スパイキングニューラルネットワーク(SNN)はエネルギー効率の良いニューロモルフィックハードウェアに適している。
Time-to-First-Spike(TTFS)コーディングは、ニューロン毎の1回のスパイクを使用し、極端に間隔とエネルギー効率を提供するが、スパース発射による不安定なトレーニングと低い精度に悩まされている。
本稿では,パラメータ正規化,トレーニング正規化,時間出力復号化,プール層再評価を取り入れたトレーニングフレームワークを提案する。
実験では、M上のTTFS SNNのトレーニングを安定化し、加速し、レイテンシを低減し、最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-10-31T04:14:47Z) - DRIVE: Dual Gradient-Based Rapid Iterative Pruning [2.209921757303168]
現代のディープニューラルネットワーク(DNN)は、数百万のパラメータで構成され、トレーニングと推論中にハイパフォーマンスコンピューティングを必要とする。
学習後推論の合理化に焦点をあてた従来の刈り込み手法は, 訓練前の刈り込みによって早期に疎水性を活用する試みが近年行われている。
創発に固有のランダム性に対処するために,初期エポックに対する濃密なトレーニングを活用するDual Gradient-Based Rapid Iterative Pruning (DRIVE)を提案する。
論文 参考訳(メタデータ) (2024-04-01T20:44:28Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。