論文の概要: Training Diagonal Linear Networks with Stochastic Sharpness-Aware Minimization
- arxiv url: http://arxiv.org/abs/2503.11891v1
- Date: Fri, 14 Mar 2025 21:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:35.219615
- Title: Training Diagonal Linear Networks with Stochastic Sharpness-Aware Minimization
- Title(参考訳): 確率的シャープネスを考慮した対角線ネットワークの学習
- Authors: Gabriel Clara, Sophie Langer, Johannes Schmidt-Hieber,
- Abstract要約: 線形回帰課題における対角線ネットワークのランドスケープとトレーニングのダイナミクスを解析する。
基礎となる景観に対する作用とトレーニングのダイナミクスと損失の鋭さを関連づけたいくつかの結果が証明された。
- 参考スコア(独自算出の注目度): 7.032245866317619
- License:
- Abstract: We analyze the landscape and training dynamics of diagonal linear networks in a linear regression task, with the network parameters being perturbed by small isotropic normal noise. The addition of such noise may be interpreted as a stochastic form of sharpness-aware minimization (SAM) and we prove several results that relate its action on the underlying landscape and training dynamics to the sharpness of the loss. In particular, the noise changes the expected gradient to force balancing of the weight matrices at a fast rate along the descent trajectory. In the diagonal linear model, we show that this equates to minimizing the average sharpness, as well as the trace of the Hessian matrix, among all possible factorizations of the same matrix. Further, the noise forces the gradient descent iterates towards a shrinkage-thresholding of the underlying true parameter, with the noise level explicitly regulating both the shrinkage factor and the threshold.
- Abstract(参考訳): 線形回帰タスクにおける対角線ネットワークのランドスケープとトレーニングのダイナミクスを解析し、ネットワークパラメータは小さな等方性正規雑音によって摂動される。
このようなノイズの付加は,シャープネス認識最小化(SAM)の確率的形式として解釈されうる。
特に、騒音は期待勾配を降下軌道に沿った高速速度で重量行列の力バランスに変化させる。
対角線モデルでは、これは同じ行列のすべての因数分解のうち、平均シャープネスとヘッセン行列のトレースを最小化するのに等しいことを示す。
さらに、雑音は勾配降下を根底にある真のパラメータの収縮閾値に繰り返し、雑音レベルは収縮係数としきい値の両方を明示的に調節する。
関連論文リスト
- Verification of Geometric Robustness of Neural Networks via Piecewise Linear Approximation and Lipschitz Optimisation [57.10353686244835]
我々は、回転、スケーリング、せん断、翻訳を含む入力画像の幾何学的変換に対するニューラルネットワークの検証の問題に対処する。
提案手法は, 分枝・分枝リプシッツと組み合わせたサンプリングおよび線形近似を用いて, 画素値に対する楽音線形制約を求める。
提案手法では,既存の手法よりも最大32%の検証ケースが解決されている。
論文 参考訳(メタデータ) (2024-08-23T15:02:09Z) - Parameter Symmetry and Noise Equilibrium of Stochastic Gradient Descent [8.347295051171525]
勾配ノイズは、退化方向に沿ってパラメータ$theta$の体系的な相互作用を、一意に依存しない固定点$theta*$へと生成することを示す。
これらの点をノイズ平衡(it noise equilibria)と呼ぶのは、これらの点において、異なる方向からのノイズ寄与がバランスと整合性を持つためである。
勾配雑音のバランスとアライメントは、ニューラルネットワーク内でのプログレッシブ・シャープニング/フラット化や表現形成といった重要な現象を説明するための新しいメカニズムとして機能することを示す。
論文 参考訳(メタデータ) (2024-02-11T13:00:04Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - A Theoretical Analysis of Noise Geometry in Stochastic Gradient Descent [9.064667124987068]
ミニバッチ勾配降下(ミニバッチ勾配降下)は、騒音が局所景観の幾何学と良好に一致する幾何学現象である。
ノイズが損失と部分空間射影力学にどのように影響するかを解析し,アライメント強度を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2023-10-01T14:58:20Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - The Dynamics of Sharpness-Aware Minimization: Bouncing Across Ravines
and Drifting Towards Wide Minima [41.961056785108845]
我々は、ディープネットワークの勾配に基づく最適化手法であるシャープネス認識最小化について検討する。
SAM に凸2次対象を施すと、最も大きい曲率で最小方向の両辺の間で振動するサイクルに収束することを示す。
非二次的の場合、そのような振動は、ヘッセンのスペクトルノルムに基づいて、より小さなステップサイズで勾配降下を効果的に実行することを示す。
論文 参考訳(メタデータ) (2022-10-04T10:34:37Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。