論文の概要: Sharpness-Aware Minimization Leads to Low-Rank Features
- arxiv url: http://arxiv.org/abs/2305.16292v1
- Date: Thu, 25 May 2023 17:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:22:56.378115
- Title: Sharpness-Aware Minimization Leads to Low-Rank Features
- Title(参考訳): シャープネスを意識した最小化が低ランク機能に
- Authors: Maksym Andriushchenko, Dara Bahri, Hossein Mobahi, Nicolas Flammarion
- Abstract要約: シャープネス認識最小化(SAM)は、ニューラルネットワークのトレーニング損失を最小限に抑える手法である。
SAMはニューラルネットワークの異なる層で発生する特徴ランクを減少させる。
我々はこの効果を理論的に確認し、深層ネットワークでも起こりうることを確認する。
- 参考スコア(独自算出の注目度): 47.1273421258908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sharpness-aware minimization (SAM) is a recently proposed method that
minimizes the sharpness of the training loss of a neural network. While its
generalization improvement is well-known and is the primary motivation, we
uncover an additional intriguing effect of SAM: reduction of the feature rank
which happens at different layers of a neural network. We show that this
low-rank effect occurs very broadly: for different architectures such as
fully-connected networks, convolutional networks, vision transformers and for
different objectives such as regression, classification, language-image
contrastive training. To better understand this phenomenon, we provide a
mechanistic understanding of how low-rank features arise in a simple two-layer
network. We observe that a significant number of activations gets entirely
pruned by SAM which directly contributes to the rank reduction. We confirm this
effect theoretically and check that it can also occur in deep networks,
although the overall rank reduction mechanism can be more complex, especially
for deep networks with pre-activation skip connections and self-attention
layers. We make our code available at
https://github.com/tml-epfl/sam-low-rank-features.
- Abstract(参考訳): シャープネス認識最小化(sam)は、ニューラルネットワークのトレーニング損失のシャープネスを最小化する最近提案された手法である。
一般化の改善はよく知られており、主要な動機となっているが、SAMのさらなる興味深い効果は、ニューラルネットワークの異なる層で起こる特徴ランクの減少である。
完全接続ネットワーク,畳み込みネットワーク,視覚トランスフォーマーなどの異なるアーキテクチャと,回帰,分類,言語と画像のコントラストトレーニングといった異なる目的に対して,この低ランク効果が極めて広く起こることが示されている。
この現象をよりよく理解するために、単純な2層ネットワークにおいて低ランクな特徴がどのように生じるのかを機械論的に理解する。
我々は, SAMによってかなりの数のアクティベーションが完全に切断され, ランクの減少に直接寄与することが観察された。
この効果を理論的に確認し,ディープネットワークでも発生可能であることを確かめる。しかし,全体的なランク低減機構はより複雑であり,特に事前活性化スキップ接続と自己接続層を有するディープネットワークの場合である。
コードはhttps://github.com/tml-epfl/sam-low-rank-featuresで利用可能です。
関連論文リスト
- Order parameters and phase transitions of continual learning in deep neural networks [6.349503549199403]
継続学習(CL)により、動物は事前知識を消去することなく新しいタスクを学習することができる。
ニューラルネットワーク(NN)におけるCLは、破滅的な忘れが原因で困難であり、新しい学習は古いタスクのパフォーマンスを低下させる。
本稿では,ネットワークの入出力マッピングがタスク列を学習する際に特徴付ける,深層広帯域NNにおけるCLの統計力学理論を提案する。
論文 参考訳(メタデータ) (2024-07-14T20:22:36Z) - Why Does Sharpness-Aware Minimization Generalize Better Than SGD? [102.40907275290891]
シャープネス・アウェアの最小化(SAM)がデータモデルや2層畳み込みReLUネットワークに対してグラディエントDescent(SGD)よりも優れていることを示す。
その結果,SAMの利点,特に早期の雑音学習を防止し,特徴のより効果的な学習を容易にする能力について解説した。
論文 参考訳(メタデータ) (2023-10-11T07:51:10Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Network Degeneracy as an Indicator of Training Performance: Comparing
Finite and Infinite Width Angle Predictions [3.04585143845864]
ネットワークの深層化が進むにつれ、ネットワークは縮退しやすくなっている。
完全に接続されたReLUネットワークアーキテクチャのデジェネリシーのレベルを正確に予測できる単純なアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-06-02T13:02:52Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文 参考訳(メタデータ) (2022-08-01T20:31:58Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。