Fugu-MT 論文翻訳(概要): Slimmable Networks for Contrastive Self-supervised Learning

論文の概要: Slimmable Networks for Contrastive Self-supervised Learning

arxiv url: http://arxiv.org/abs/2209.15525v2
Date: Tue, 23 May 2023 12:20:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 01:21:10.162092
Title: Slimmable Networks for Contrastive Self-supervised Learning
Title（参考訳）: コントラスト型自己教師型学習のためのスリムネットワーク
Authors: Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang
Abstract要約: 自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせずに、事前訓練された小型モデルを得るための一段階のソリューションを提案する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
参考スコア（独自算出の注目度）: 67.21528544724546
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Self-supervised learning makes significant progress in pre-training large models, but struggles with small models. Previous solutions to this problem rely mainly on knowledge distillation, which involves a two-stage procedure: first training a large teacher model and then distilling it to improve the generalization ability of smaller ones. In this work, we present a one-stage solution to obtain pre-trained small models without the need for extra teachers, namely, slimmable networks for contrastive self-supervised learning (\emph{SlimCLR}). A slimmable network consists of a full network and several weight-sharing sub-networks, which can be pre-trained once to obtain various networks, including small ones with low computation costs. However, interference between weight-sharing networks leads to severe performance degradation in self-supervised cases, as evidenced by \emph{gradient magnitude imbalance} and \emph{gradient direction divergence}. The former indicates that a small proportion of parameters produce dominant gradients during backpropagation, while the main parameters may not be fully optimized. The latter shows that the gradient direction is disordered, and the optimization process is unstable. To address these issues, we introduce three techniques to make the main parameters produce dominant gradients and sub-networks have consistent outputs. These techniques include slow start training of sub-networks, online distillation, and loss re-weighting according to model sizes. Furthermore, theoretical results are presented to demonstrate that a single slimmable linear layer is sub-optimal during linear evaluation. Thus a switchable linear probe layer is applied during linear evaluation. We instantiate SlimCLR with typical contrastive learning frameworks and achieve better performance than previous arts with fewer parameters and FLOPs.
Abstract（参考訳）: 自己教師付き学習は、大規模モデルの事前学習において大きな進歩をもたらすが、小さなモデルでは困難である。この問題に対する従来の解決策は主に知識蒸留に依存しており、まず大きな教師モデルを訓練し、その後、より小さな教師の一般化能力を向上させるために蒸留する2段階の手順である。本研究では,教師を余分に必要とせずに事前学習した小モデル,すなわち,コントラスト的自己教師付き学習のためのスリム化ネットワーク (\emph{slimclr}) を得るための一段階解を提案する。スリム化可能なネットワークは、完全なネットワークと、計算コストの低い小さなネットワークを含む様々なネットワークを得るために、一度にトレーニングできるいくつかの重み共有サブネットワークで構成されている。しかし、ウェイトシェアリングネットワーク間の干渉は、'emph{gradient magnitude im Balance} と 'emph{gradient direction divergence} によって証明されたように、自己監督されたケースで深刻なパフォーマンス劣化を引き起こす。前者は,バックプロパゲーションにおいて,パラメータのごく一部が支配的な勾配を生じさせるが,主パラメータは完全最適化されない可能性があることを示している。後者は勾配方向が乱れ、最適化過程が不安定であることを示す。これらの問題に対処するために,主パラメータが支配的な勾配を生成し,サブネットワークが一貫した出力を持つようにするための3つの手法を導入する。これらの技術には、サブネットワークのスロースタートトレーニング、オンライン蒸留、モデルサイズに応じた損失再重み付けが含まれる。さらに, 線形評価において, 一つのスリム化可能な線形層が準最適であることを示す理論的結果を示した。これにより、線形評価中に切り替え可能な線形プローブ層が適用される。典型的なコントラスト学習フレームワークでSlimCLRをインスタンス化し、パラメータやFLOPが少ない従来の手法よりも優れたパフォーマンスを実現する。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文参考訳（メタデータ） (2023-05-24T22:10:12Z)
Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文参考訳（メタデータ） (2022-09-17T10:46:32Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文参考訳（メタデータ） (2021-06-16T15:57:51Z)
Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文参考訳（メタデータ） (2021-02-20T23:26:58Z)
Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。 ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文参考訳（メタデータ） (2020-10-29T21:43:00Z)
HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文参考訳（メタデータ） (2020-08-24T04:08:48Z)
Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。その結果,メモリフットプリントの精度が向上し,dを4～8倍削減できることがわかった。
論文参考訳（メタデータ） (2020-06-10T02:47:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。