論文の概要: Sharpness-Aware Minimization Leads to Low-Rank Features
- arxiv url: http://arxiv.org/abs/2305.16292v1
- Date: Thu, 25 May 2023 17:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:22:56.378115
- Title: Sharpness-Aware Minimization Leads to Low-Rank Features
- Title(参考訳): シャープネスを意識した最小化が低ランク機能に
- Authors: Maksym Andriushchenko, Dara Bahri, Hossein Mobahi, Nicolas Flammarion
- Abstract要約: シャープネス認識最小化(SAM)は、ニューラルネットワークのトレーニング損失を最小限に抑える手法である。
SAMはニューラルネットワークの異なる層で発生する特徴ランクを減少させる。
我々はこの効果を理論的に確認し、深層ネットワークでも起こりうることを確認する。
- 参考スコア(独自算出の注目度): 47.1273421258908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sharpness-aware minimization (SAM) is a recently proposed method that
minimizes the sharpness of the training loss of a neural network. While its
generalization improvement is well-known and is the primary motivation, we
uncover an additional intriguing effect of SAM: reduction of the feature rank
which happens at different layers of a neural network. We show that this
low-rank effect occurs very broadly: for different architectures such as
fully-connected networks, convolutional networks, vision transformers and for
different objectives such as regression, classification, language-image
contrastive training. To better understand this phenomenon, we provide a
mechanistic understanding of how low-rank features arise in a simple two-layer
network. We observe that a significant number of activations gets entirely
pruned by SAM which directly contributes to the rank reduction. We confirm this
effect theoretically and check that it can also occur in deep networks,
although the overall rank reduction mechanism can be more complex, especially
for deep networks with pre-activation skip connections and self-attention
layers. We make our code available at
https://github.com/tml-epfl/sam-low-rank-features.
- Abstract(参考訳): シャープネス認識最小化(sam)は、ニューラルネットワークのトレーニング損失のシャープネスを最小化する最近提案された手法である。
一般化の改善はよく知られており、主要な動機となっているが、SAMのさらなる興味深い効果は、ニューラルネットワークの異なる層で起こる特徴ランクの減少である。
完全接続ネットワーク,畳み込みネットワーク,視覚トランスフォーマーなどの異なるアーキテクチャと,回帰,分類,言語と画像のコントラストトレーニングといった異なる目的に対して,この低ランク効果が極めて広く起こることが示されている。
この現象をよりよく理解するために、単純な2層ネットワークにおいて低ランクな特徴がどのように生じるのかを機械論的に理解する。
我々は, SAMによってかなりの数のアクティベーションが完全に切断され, ランクの減少に直接寄与することが観察された。
この効果を理論的に確認し,ディープネットワークでも発生可能であることを確かめる。しかし,全体的なランク低減機構はより複雑であり,特に事前活性化スキップ接続と自己接続層を有するディープネットワークの場合である。
コードはhttps://github.com/tml-epfl/sam-low-rank-featuresで利用可能です。
関連論文リスト
- Layer-wise Shared Attention Network on Dynamical System Perspective [69.45492795788167]
本稿では,複数のネットワーク層にまたがって単一の注目モジュールを共有するDIAユニットという,新規かつ簡易なフレームワークを提案する。
当社のフレームワークでは,パラメータコストはレイヤ数とは無関係であり,既存の自己注意モジュールの精度をさらに向上する。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Slimmable Networks for Contrastive Self-supervised Learning [67.21528544724546]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせずに、事前訓練された小型モデルを得るための一段階のソリューションを提案する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文 参考訳(メタデータ) (2022-08-01T20:31:58Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - SAR Despeckling Using Overcomplete Convolutional Networks [53.99620005035804]
スペックルはSAR画像を劣化させるため、リモートセンシングにおいて重要な問題である。
近年の研究では、畳み込みニューラルネットワーク(CNN)が古典的解法よりも優れていることが示されている。
本研究は、受容場を制限することで低レベルの特徴を学習することに集中するために、過剰なCNNアーキテクチャを用いる。
本稿では,合成および実SAR画像の非特定化手法と比較して,提案手法により非特定化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-31T15:55:37Z) - Improving Neural Network Robustness through Neighborhood Preserving
Layers [0.751016548830037]
このような層を組み込むことができ、効率的にトレーニングできる新しいニューラルネットワークアーキテクチャを実証する。
我々は、設計したネットワークアーキテクチャが、最先端の勾配に基づく攻撃に対してより堅牢であることを実証的に示す。
論文 参考訳(メタデータ) (2021-01-28T01:26:35Z) - It's Hard for Neural Networks To Learn the Game of Life [4.061135251278187]
最近の研究では、ニューラルネットワークは、ソリューションに迅速に収束する"ロテリチケット"のラッキーな初期重みに依存していることが示唆されている。
本研究では,2次元セル・オートマトン・コンウェイのゲーム・オブ・ライフのn段階を予測するために訓練された小さな畳み込みネットワークについて検討する。
このタスクでトレーニングされたこのアーキテクチャのネットワークは、ほとんど収束しない。
論文 参考訳(メタデータ) (2020-09-03T00:47:08Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。