論文の概要: Neighbourhood Distillation: On the benefits of non end-to-end
distillation
- arxiv url: http://arxiv.org/abs/2010.01189v2
- Date: Thu, 8 Oct 2020 22:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:59:15.496994
- Title: Neighbourhood Distillation: On the benefits of non end-to-end
distillation
- Title(参考訳): 近隣蒸留:非エンドツーエンド蒸留の利点について
- Authors: La\"etitia Shao, Max Moroz, Elad Eban, Yair Movshovitz-Attias
- Abstract要約: エンド・ツー・エンド方式の蒸留ネットワークは多様なユースケースにおいて有用であることを示す。
まず、より小さなネットワーク上でのトレーニングとトレーニングを活用することにより、蒸留を高速化することを示す。
第二に、近隣住民はニューラルネットワーク探索のために効率的に訓練されることが示される。
- 参考スコア(独自算出の注目度): 3.053769836006353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end training with back propagation is the standard method for training
deep neural networks. However, as networks become deeper and bigger, end-to-end
training becomes more challenging: highly non-convex models gets stuck easily
in local optima, gradients signals are prone to vanish or explode during
back-propagation, training requires computational resources and time. In this
work, we propose to break away from the end-to-end paradigm in the context of
Knowledge Distillation. Instead of distilling a model end-to-end, we propose to
split it into smaller sub-networks - also called neighbourhoods - that are then
trained independently. We empirically show that distilling networks in a non
end-to-end fashion can be beneficial in a diverse range of use cases. First, we
show that it speeds up Knowledge Distillation by exploiting parallelism and
training on smaller networks. Second, we show that independently distilled
neighbourhoods may be efficiently re-used for Neural Architecture Search.
Finally, because smaller networks model simpler functions, we show that they
are easier to train with synthetic data than their deeper counterparts.
- Abstract(参考訳): バック伝搬によるエンドツーエンドトレーニングは、ディープニューラルネットワークをトレーニングする標準的な方法である。
しかし、ネットワークがより深くなり、エンドツーエンドのトレーニングが困難になるにつれて、高度に非凸なモデルが局所最適で簡単に立ち往生し、勾配信号はバックプロパゲーション中に消滅または爆発する傾向にあり、トレーニングには計算資源と時間が必要である。
本研究では, エンド・ツー・エンドのパラダイムを, 知識蒸留の文脈から切り離すことを提案する。
エンド・ツー・エンドのモデルを蒸留する代わりに、より小さなサブネットワーク(地区とも呼ばれる)に分割し、独立して訓練することを提案する。
エンド・ツー・エンド方式の蒸留ネットワークは多様なユースケースにおいて有用であることを示す。
まず,より小さなネットワーク上で並列処理とトレーニングを活用し,知識蒸留を高速化することを示す。
第2に, 独立蒸留した近傍をニューラルネットワーク探索に効率的に再利用できることを示す。
最後に、より小さなネットワークはより単純な関数をモデル化するため、より深い関数よりも合成データで訓練しやすいことを示す。
関連論文リスト
- Stitching for Neuroevolution: Recombining Deep Neural Networks without Breaking Them [0.0]
神経進化への伝統的なアプローチは、しばしばゼロから始まる。
アーキテクチャと特徴表現が典型的に異なるため、トレーニングされたネットワークの再結合は簡単ではない。
我々は、クロスオーバーポイントで新しいレイヤを導入することで、ネットワークをマージするステアリングを採用しています。
論文 参考訳(メタデータ) (2024-03-21T08:30:44Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Layer Folding: Neural Network Depth Reduction using Activation
Linearization [0.0]
現代のデバイスは高いレベルの並列性を示すが、リアルタイムレイテンシはネットワークの深さに大きく依存している。
線形でない活性化を除去できるかどうかを学習し、連続的な線形層を1つに折り畳む方法を提案する。
我々は, CIFAR-10 と CIFAR-100 で事前訓練されたネットワークに適用し, それら全てを同様の深さの浅い形に変換できることを示す。
論文 参考訳(メタデータ) (2021-06-17T08:22:46Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。