論文の概要: Analyzing Redundancy in Pretrained Transformer Models
- arxiv url: http://arxiv.org/abs/2004.04010v2
- Date: Tue, 6 Oct 2020 11:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:10:12.323627
- Title: Analyzing Redundancy in Pretrained Transformer Models
- Title(参考訳): 予習変圧器モデルの冗長性解析
- Authors: Fahim Dalvi, Hassan Sajjad, Nadir Durrani and Yonatan Belinkov
- Abstract要約: 我々は、一般的な冗長性とタスク固有の冗長性という2つのクラスに分類される冗長性の概念を定義します。
提案手法は,ニューロンの10%以上を使用しながら,97%の性能を維持した効率的な特徴に基づく伝達学習手法である。
- 参考スコア(独自算出の注目度): 41.07850306314594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based deep NLP models are trained using hundreds of millions of
parameters, limiting their applicability in computationally constrained
environments. In this paper, we study the cause of these limitations by
defining a notion of Redundancy, which we categorize into two classes: General
Redundancy and Task-specific Redundancy. We dissect two popular pretrained
models, BERT and XLNet, studying how much redundancy they exhibit at a
representation-level and at a more fine-grained neuron-level. Our analysis
reveals interesting insights, such as: i) 85% of the neurons across the network
are redundant and ii) at least 92% of them can be removed when optimizing
towards a downstream task. Based on our analysis, we present an efficient
feature-based transfer learning procedure, which maintains 97% performance
while using at-most 10% of the original neurons.
- Abstract(参考訳): トランスフォーマーベースのディープNLPモデルは、数億のパラメータを使って訓練され、計算制約のある環境での適用性を制限する。
本稿では,これらの制約の原因を,汎用冗長性とタスク固有の冗長性という2つのクラスに分類される冗長性の概念を定義することによって検討する。
我々は、BERTとXLNetという2つの人気のある事前訓練モデルを特定し、それらが表現レベルとよりきめ細かいニューロンレベルでどれだけ冗長性を示すかを研究する。
私たちの分析は、次のような興味深い洞察を示しています。
一 ネットワーク上のニューロンの八5%が冗長で、
ii) 下流タスクに最適化する場合、少なくとも92%は削除することができる。
提案手法は, ニューロンの10%以上を使用しながら, 97%の性能を保ちながら, 効率的な特徴に基づく伝達学習手法を提案する。
関連論文リスト
- Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Boosting Binary Neural Networks via Dynamic Thresholds Learning [21.835748440099586]
我々はDySignを導入し、情報損失を減らし、BNNの代表能力を高める。
DCNNでは、2つのバックボーンに基づくDyBCNNが、ImageNetデータセット上で71.2%と67.4%のトップ1精度を達成した。
ViTsの場合、DyCCTはImageNetデータセット上で完全にバイナライズされたViTsと56.1%のコンボリューショナル埋め込み層の優位性を示す。
論文 参考訳(メタデータ) (2022-11-04T07:18:21Z) - An Experimental Study of the Impact of Pre-training on the Pruning of a
Convolutional Neural Network [0.0]
近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功している。
ディープニューラルネットワークは通常、ネットワークの重みに対応する多数のパラメータを含む。
プルーニング法は特に、無関係な重みを識別して取り除くことにより、パラメータセットのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2021-12-15T16:02:15Z) - Neural Network Pruning Through Constrained Reinforcement Learning [3.2880869992413246]
本稿では,ニューラルネットワークを解析するための一般的な手法を提案する。
提案手法は、事前に定義された計算予算を尊重するためにニューラルネットワークを創出することができる。
標準画像分類データセットにおける最先端手法との比較により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-10-16T11:57:38Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Bayesian Neural Networks at Scale: A Performance Analysis and Pruning
Study [2.3605348648054463]
本研究は,BNNを大規模にトレーニングする際の課題に対処するために,分散トレーニングを用いた高性能コンピューティングの利用について検討する。
我々は,Cray-XC40クラスタ上でのVGG-16とResnet-18モデルのトレーニング性能とスケーラビリティの比較を行った。
論文 参考訳(メタデータ) (2020-05-23T23:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。