論文の概要: Weight Distillation: Transferring the Knowledge in Neural Network
Parameters
- arxiv url: http://arxiv.org/abs/2009.09152v3
- Date: Mon, 19 Jul 2021 04:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:20:59.595370
- Title: Weight Distillation: Transferring the Knowledge in Neural Network
Parameters
- Title(参考訳): 重み蒸留:ニューラルネットワークパラメータにおける知識の伝達
- Authors: Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan Du, Tong Xiao, Jingbo
Zhu
- Abstract要約: 本稿では,大規模ネットワークパラメータの知識をパラメータ生成器を通じて伝達する重み蒸留法を提案する。
WMT16 En-Ro, NIST12 Zh-En, WMT14 En-De 機械翻訳タスクの実験は、重量蒸留が大きなネットワークよりも1.882.94倍高速で競争性能の小さいネットワークを訓練できることを示している。
- 参考スコア(独自算出の注目度): 48.32204633079697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has been proven to be effective in model acceleration
and compression. It allows a small network to learn to generalize in the same
way as a large network. Recent successes in pre-training suggest the
effectiveness of transferring model parameters. Inspired by this, we
investigate methods of model acceleration and compression in another line of
research. We propose Weight Distillation to transfer the knowledge in the large
network parameters through a parameter generator. Our experiments on WMT16
En-Ro, NIST12 Zh-En, and WMT14 En-De machine translation tasks show that weight
distillation can train a small network that is 1.88~2.94x faster than the large
network but with competitive performance. With the same sized small network,
weight distillation can outperform knowledge distillation by 0.51~1.82 BLEU
points.
- Abstract(参考訳): 知識蒸留はモデル加速と圧縮に有効であることが証明されている。
これにより、小さなネットワークが大きなネットワークと同じように一般化することを学ぶことができる。
最近のプレトレーニングの成功は、モデルパラメータの転送の有効性を示唆している。
そこで,本研究ではモデル加速と圧縮の手法について検討する。
本研究では,大規模ネットワークパラメータの知識をパラメータ生成器に伝達する重み蒸留法を提案する。
wmt16 en-ro, nist12 zh-en, wmt14 en-deマシン翻訳タスクの実験では, 重み蒸留により, 大規模ネットワークよりも1.88~2.94倍高速で, 競合性能の高い小さなネットワークを訓練できることが示されている。
同じ大きさの小さなネットワークで、重量蒸留は知識蒸留の0.51~1.82 BLEUポイントを上回っている。
関連論文リスト
- Learning to Compose SuperWeights for Neural Parameter Allocation Search [61.078949532440724]
提案手法は,同じ重み集合を用いて多くのネットワークに対してパラメータを生成することができることを示す。
これにより、効率的なアンサンブルや、いつでも予測できるようなタスクをサポートできます。
論文 参考訳(メタデータ) (2023-12-03T04:20:02Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Kernel Modulation: A Parameter-Efficient Method for Training
Convolutional Neural Networks [19.56633207984127]
本研究は,階層のサブセットではなく,ベースネットワークのすべてのパラメータを適応する,新しいパラメータ効率の高いカーネル変調(KM)手法を提案する。
KMは軽量なタスク特化カーネル変調器を使用し、ベースネットワークパラメータの1.4%しか必要としない。
以上の結果から,KMはTransfer Learningベンチマークの他のパラメータ効率の高い手法よりも最大9%高い精度を達成できることがわかった。
論文 参考訳(メタデータ) (2022-03-29T07:28:50Z) - An Experimental Study of the Impact of Pre-training on the Pruning of a
Convolutional Neural Network [0.0]
近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功している。
ディープニューラルネットワークは通常、ネットワークの重みに対応する多数のパラメータを含む。
プルーニング法は特に、無関係な重みを識別して取り除くことにより、パラメータセットのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2021-12-15T16:02:15Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Multi-Prize Lottery Ticket Hypothesis: Finding Accurate Binary Neural
Networks by Pruning A Randomly Weighted Network [13.193734014710582]
マルチプライズチケット(MPT)の検索アルゴリズムを提案し,CIFAR-10およびImageNetデータセット上で一連の実験を行うことで試験する。
当社のMTTs-1/32は、新しいバイナリウェイトネットワーク最新(SOTA)Top-1精度(CIFAR-10では94.8%、ImageNetでは74.03%)を設定するだけでなく、それぞれ1.78%と0.76%に上る。
論文 参考訳(メタデータ) (2021-03-17T00:31:24Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。
我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文 参考訳(メタデータ) (2020-07-01T23:34:35Z) - Principal Component Networks: Parameter Reduction Early in Training [10.14522349959932]
パラメータ化されたネットワークと同じ性能を示す小さなネットワークを見つける方法を示す。
我々はPCAを用いて、層入力の高分散の基盤を見つけ、これらの方向を用いて層重みを表現する。
また、ResNet-20 PCNは、より高速なトレーニングを行いながら、Deep ResNet-110ネットワークより優れていることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。