論文の概要: Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization
- arxiv url: http://arxiv.org/abs/2311.04163v1
- Date: Tue, 7 Nov 2023 17:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:35:38.209882
- Title: Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization
- Title(参考訳): 対向信号を持つ外乱はニューラルネットワーク最適化に大きく影響する
- Authors: Elan Rosenfeld, Andrej Risteski
- Abstract要約: 自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。
特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。
強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
- 参考スコア(独自算出の注目度): 36.72245290832128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify a new phenomenon in neural network optimization which arises from
the interaction of depth and a particular heavy-tailed structure in natural
data. Our result offers intuitive explanations for several previously reported
observations about network training dynamics. In particular, it implies a
conceptually new cause for progressive sharpening and the edge of stability; we
also highlight connections to other concepts in optimization and generalization
including grokking, simplicity bias, and Sharpness-Aware Minimization.
Experimentally, we demonstrate the significant influence of paired groups of
outliers in the training data with strong opposing signals: consistent, large
magnitude features which dominate the network output throughout training and
provide gradients which point in opposite directions. Due to these outliers,
early optimization enters a narrow valley which carefully balances the opposing
groups; subsequent sharpening causes their loss to rise rapidly, oscillating
between high on one group and then the other, until the overall loss spikes. We
describe how to identify these groups, explore what sets them apart, and
carefully study their effect on the network's optimization and behavior. We
complement these experiments with a mechanistic explanation on a toy example of
opposing signals and a theoretical analysis of a two-layer linear network on a
simple model. Our finding enables new qualitative predictions of training
behavior which we confirm experimentally. It also provides a new lens through
which to study and improve modern training practices for stochastic
optimization, which we highlight via a case study of Adam versus SGD.
- Abstract(参考訳): 自然データにおける深度と特定の重み付き構造との相互作用から生じるニューラルネットワーク最適化の新しい現象を同定する。
その結果、ネットワークトレーニングダイナミクスに関するいくつかの報告に対して直感的な説明が得られた。
特に,進歩的なシャープ化と安定性の限界に対する概念的な新たな原因を示唆する。また,グロッキングや単純さバイアス,シャープネス対応の最小化など,最適化や一般化における他の概念とのつながりも強調する。
実験では, 対向する強い信号を持つトレーニングデータに, 対向する2つのオフレーヤ群が有意な影響を示そう: トレーニングを通してネットワーク出力を支配し, 反対方向を向く勾配を与える, 一貫性のある, 大規模特徴。
これらの異常により、早期の最適化は、対立するグループを慎重にバランスさせる狭い谷に入り、その後に鋭くすると、損失は急速に増加し、一方のグループともう一方のグループの間では、全体の損失が急増するまで振動する。
我々は,これらのグループを識別し,それらを分離する要因を探索し,ネットワークの最適化と行動に与える影響を慎重に検討する。
我々はこれらの実験を,対向する信号のおもちゃの例と,単純なモデルによる2層線形ネットワークの理論解析で補完する。
実験によって確認した訓練行動の新しい質的予測を可能にする。
また、Adam対SGDのケーススタディを通じて強調するように、確率最適化のための現代的なトレーニングプラクティスを研究、改善するための新しいレンズも提供する。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data [38.44734564565478]
本稿では, 特徴学習理論の観点から, 対角的例と対角的学習アルゴリズムの理論的理解を提供する。
本手法は,頑健な特徴学習を効果的に強化し,非ロバストな特徴学習を抑えることができることを示す。
論文 参考訳(メタデータ) (2024-10-11T03:59:49Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - No Wrong Turns: The Simple Geometry Of Neural Networks Optimization
Paths [12.068608358926317]
1次最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。
2つの鍵経路における標本最適化量の基本的な幾何学的性質に焦点をあてる。
以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-20T22:10:40Z) - Towards Understanding the Dynamics of the First-Order Adversaries [40.54670072901657]
ニューラルネットワークの弱点として認識されているのは、入力に対する敵の摂動に対する脆弱性である。
最も一般的な防御機構の1つは、投射された上昇を使って入力の制約された摂動による損失を最大化し、重量を最小化することである。
二次的損失を有する2層ニューラルネットワークの逆方向の非凹面環境について検討する。
論文 参考訳(メタデータ) (2020-10-20T22:20:53Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - Improving Adversarial Robustness by Enforcing Local and Global
Compactness [19.8818435601131]
敵の訓練は、広範囲の攻撃に一貫して抵抗する最も成功した方法である。
本稿では,局所的・言語的コンパクト性とクラスタリングの仮定を強制する分散分散化ネットワークを提案する。
実験の結果,提案するコンポーネントによる対人訓練の強化は,ネットワークの堅牢性をさらに向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-10T00:43:06Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。