論文の概要: Slimmable Networks for Contrastive Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2209.15525v1
- Date: Fri, 30 Sep 2022 15:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:01:49.847233
- Title: Slimmable Networks for Contrastive Self-supervised Learning
- Title(参考訳): コントラスト型自己教師型学習のためのスリムネットワーク
- Authors: Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang
- Abstract要約: 自己教師型学習は、大きなモデルの事前トレーニングにおいて大きな進歩を遂げるが、小さなモデルのトレーニングに苦しむ。
余分な教師を伴わずに事前学習された小モデルを得るための新しい一段階のソリューションを提案する: 対照的な自己教師型学習のためのスリムなネットワーク(emphSlimCLR)
- 参考スコア(独自算出の注目度): 67.21528544724546
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning makes great progress in large model pre-training but
suffers in training small models. Previous solutions to this problem mainly
rely on knowledge distillation and indeed have a two-stage learning procedure:
first train a large teacher model, then distill it to improve the
generalization ability of small ones. In this work, we present a new one-stage
solution to obtain pre-trained small models without extra teachers: slimmable
networks for contrastive self-supervised learning (\emph{SlimCLR}). A slimmable
network contains a full network and several weight-sharing sub-networks. We can
pre-train for only one time and obtain various networks including small ones
with low computation costs. However, in self-supervised cases, the interference
between weight-sharing networks leads to severe performance degradation. One
evidence of the interference is \emph{gradient imbalance}: a small proportion
of parameters produces dominant gradients during backpropagation, and the main
parameters may not be fully optimized. The divergence in gradient directions of
various networks may also cause interference between networks. To overcome
these problems, we make the main parameters produce dominant gradients and
provide consistent guidance for sub-networks via three techniques: slow start
training of sub-networks, online distillation, and loss re-weighting according
to model sizes. Besides, a switchable linear probe layer is applied during
linear evaluation to avoid the interference of weight-sharing linear layers. We
instantiate SlimCLR with typical contrastive learning frameworks and achieve
better performance than previous arts with fewer parameters and FLOPs.
- Abstract(参考訳): 自己教師型学習は、大きなモデルの事前トレーニングにおいて大きな進歩を遂げるが、小さなモデルのトレーニングに苦しむ。
この問題に対する従来の解決策は、主に知識蒸留に依存しており、実際は2段階の学習手順がある: まず、大きな教師モデルを訓練し、次にそれを蒸留して、小さな教師の一般化能力を向上させる。
そこで本研究では,教師を必要とせずに事前学習した小モデルを得るための,新しい一段階のソリューションを提案する。
スリム化可能なネットワークは、フルネットワークと複数の重み共有サブネットワークを含む。
我々は1回だけ事前訓練を行い、計算コストの低い小さなネットワークを含む様々なネットワークを得ることができる。
しかし、自己監督の場合、重み共有ネットワーク間の干渉は深刻な性能低下につながる。
この干渉の1つの証拠は \emph{gradient imbalance} である: 少数のパラメータがバックプロパゲーション中に支配的な勾配を生成し、メインパラメータが完全に最適化されない可能性がある。
様々なネットワークの勾配方向のばらつきもネットワーク間の干渉を引き起こす可能性がある。
これらの課題を克服するため,本手法は,サブネットワークのスロースタートトレーニング,オンライン蒸留,モデルサイズに応じた損失再重み付けという3つの手法を用いて,主要なパラメータに支配的な勾配を生じさせる。
また、重み付け線形層の干渉を避けるため、線形評価中に切換え可能な線形プローブ層を適用した。
典型的なコントラスト学習フレームワークでSlimCLRをインスタンス化し、パラメータやFLOPが少ない従来の手法よりも優れたパフォーマンスを実現する。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。
本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。
提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-09-17T10:46:32Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。