Fugu-MT 論文翻訳(概要): High dimensional analysis reveals conservative sharpening and a stochastic edge of stability

論文の概要: High dimensional analysis reveals conservative sharpening and a stochastic edge of stability

arxiv url: http://arxiv.org/abs/2404.19261v1
Date: Tue, 30 Apr 2024 04:54:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-01 15:23:59.540143
Title: High dimensional analysis reveals conservative sharpening and a stochastic edge of stability
Title（参考訳）: 高次元解析は、保守的なシャープニングと確率的安定性の端を明らかにする
Authors: Atish Agarwala, Jeffrey Pennington,
Abstract要約: トレーニング損失Hessianの大きな固有値のダイナミクスは,モデル間およびバッチ全体において極めて堅牢な特徴を持っていることを示す。しばしば、大きな固有値が増加するプログレッシブ・シャープニングの初期段階があり、続いて安定性の端として知られる予測可能な値での安定化が続く。
参考スコア（独自算出の注目度）: 21.12433806766051
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent empirical and theoretical work has shown that the dynamics of the large eigenvalues of the training loss Hessian have some remarkably robust features across models and datasets in the full batch regime. There is often an early period of progressive sharpening where the large eigenvalues increase, followed by stabilization at a predictable value known as the edge of stability. Previous work showed that in the stochastic setting, the eigenvalues increase more slowly - a phenomenon we call conservative sharpening. We provide a theoretical analysis of a simple high-dimensional model which shows the origin of this slowdown. We also show that there is an alternative stochastic edge of stability which arises at small batch size that is sensitive to the trace of the Neural Tangent Kernel rather than the large Hessian eigenvalues. We conduct an experimental study which highlights the qualitative differences from the full batch phenomenology, and suggests that controlling the stochastic edge of stability can help optimization.
Abstract（参考訳）: 最近の経験的および理論的研究は、Hessianのトレーニング損失の大きな固有値のダイナミクスが、完全なバッチシステムにおけるモデルとデータセット間で驚くほど堅牢な特徴を持っていることを示している。しばしば、大きな固有値が増加するプログレッシブ・シャープニングの初期段階があり、続いて安定性の端として知られる予測可能な値での安定化が続く。以前の研究では、確率的な設定では固有値が徐々に増加することが示され、これは保守的なシャープニングと呼ばれる現象である。このスローダウンの起源を示す単純な高次元モデルの理論的解析を行う。また、大きなヘッセン固有値ではなく、ニューラル・タンジェント・カーネルのトレースに敏感な小さなバッチサイズで生じる確率的安定性の代替エッジが存在することも示している。本研究は, 完全バッチ現象学と定性的な差異を明らかにする実験を行い, 安定性の確率的エッジの制御が最適化に役立つことを示唆する。

関連論文リスト

Can Stability be Detrimental? Better Generalization through Gradient Descent Instabilities [14.741581246137404]
本研究では,大きな学習率によって引き起こされる不安定さが,損失景観の平坦な領域へモデルパラメータを移動させることを示す。最新のベンチマークデータセットでは,これらが優れた一般化性能をもたらすことが判明した。
論文参考訳（メタデータ） (2024-12-23T14:32:53Z)
Regulating Model Reliance on Non-Robust Features by Smoothing Input Marginal Density [93.32594873253534]
信頼できる機械学習は、非ロバストな特徴に依存するモデルの厳密な規制を必要とする。本稿では,モデル予測を入力に関連付けることによって,そのような特徴を記述・規制するフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-05T09:16:56Z)
Stable Update of Regression Trees [0.0]
本稿では,回帰木という,本質的に説明可能な機械学習手法の安定性に着目した。本稿では,初期モデルの不確実性に基づいてデータポイントを重み付けする正規化手法を提案する。その結果、提案手法は、類似またはより良い予測性能を達成しつつ、安定性の向上を図っている。
論文参考訳（メタデータ） (2024-02-21T09:41:56Z)
A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文参考訳（メタデータ） (2024-01-22T19:46:30Z)
Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos [6.579523168465526]
ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。 1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文参考訳（メタデータ） (2023-11-03T17:59:40Z)
Anomaly Detection with Variance Stabilized Density Estimation [49.46356430493534]
本稿では, 観測試料の確率を最大化するための分散安定化密度推定問題を提案する。信頼性の高い異常検知器を得るために,分散安定化分布を学習するための自己回帰モデルのスペクトルアンサンブルを導入する。我々は52のデータセットで広範なベンチマークを行い、我々の手法が最先端の結果につながることを示した。
論文参考訳（メタデータ） (2023-06-01T11:52:58Z)
Second-order regression models exhibit progressive sharpening to the edge of stability [30.92413051155244]
2次元の二次目標に対して、2階回帰モデルでは、安定性の端とわずかに異なる値に対して進行的なシャープ化を示すことを示す。より高次元では、モデルはニューラルネットワークの特定の構造がなくても、概して同様の振る舞いを示す。
論文参考訳（メタデータ） (2022-10-10T17:21:20Z)
Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文参考訳（メタデータ） (2021-08-25T21:30:27Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)
Fine-Grained Analysis of Stability and Generalization for Stochastic Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文参考訳（メタデータ） (2020-06-15T06:30:19Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。