論文の概要: PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance
- arxiv url: http://arxiv.org/abs/2206.12562v1
- Date: Sat, 25 Jun 2022 05:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:59:22.420089
- Title: PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance
- Title(参考訳): PLATON:重み重みの高信頼境界を持つ大規模変圧器モデル
- Authors: Qingru Zhang, Simiao Zuo, Chen Liang, Alexander Bukharin, Pengcheng
He, Weizhu Chen, Tuo Zhao
- Abstract要約: 本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
- 参考スコア(独自算出の注目度): 114.1541203743303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformer-based models have exhibited superior performance in various
natural language processing and computer vision tasks. However, these models
contain enormous amounts of parameters, which restrict their deployment to
real-world applications. To reduce the model size, researchers prune these
models based on the weights' importance scores. However, such scores are
usually estimated on mini-batches during training, which incurs large
variability/uncertainty due to mini-batch sampling and complicated training
dynamics. As a result, some crucial weights could be pruned by commonly used
pruning methods because of such uncertainty, which makes training unstable and
hurts generalization. To resolve this issue, we propose PLATON, which captures
the uncertainty of importance scores by upper confidence bound (UCB) of
importance estimation. In particular, for the weights with low importance
scores but high uncertainty, PLATON tends to retain them and explores their
capacity. We conduct extensive experiments with several Transformer-based
models on natural language understanding, question answering and image
classification to validate the effectiveness of PLATON. Results demonstrate
that PLATON manifests notable improvement under different sparsity levels. Our
code is publicly available at https://github.com/QingruZhang/PLATON.
- Abstract(参考訳): トランスフォーマーベースの大規模モデルは、様々な自然言語処理やコンピュータビジョンタスクにおいて優れた性能を示した。
しかし、これらのモデルには膨大なパラメータが含まれており、実際のアプリケーションへのデプロイメントを制限する。
モデルサイズを減らすために、研究者は重み付けの重要性スコアに基づいてこれらのモデルを試す。
しかしながら、このようなスコアは通常、訓練中のミニバッチで推定されるため、ミニバッチサンプリングと複雑なトレーニングダイナミクスにより、大きな変動や確実性が伴う。
その結果、この不確実性によりトレーニングが不安定になり、一般化を損なうため、一般的に使用されるプルーニング法によっていくつかの重要な重量を刈り取ることができる。
この問題を解決するために,重要度推定の上限値(UCB)によって重要度スコアの不確かさを捉えるPLATONを提案する。
特に、重要度は低いが不確実性が高い重量では、PLATONはそれらを保持し、その能力を探る傾向がある。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて広範な実験を行い、PLATONの有効性を検証する。
その結果, PLATONは各部位で顕著な改善を示した。
私たちのコードはhttps://github.com/QingruZhang/PLATON.comで公開されています。
関連論文リスト
- Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners [19.579098962615795]
FSCIL(Few-Shot Class Incremental Learning)は、クラスごとにいくつかのサンプルしか与えられていないことを忘れずに、新しいクラスを漸進的に学習するモデルを必要とするタスクである。
FSCILは2つの大きな課題に直面している。
大規模なデータセットで事前訓練された視覚や言語変換器のような大規模モデルは、数発のインクリメンタル学習者には優れていると我々は主張する。
論文 参考訳(メタデータ) (2024-04-02T17:23:22Z) - SEVEN: Pruning Transformer Model by Reserving Sentinels [18.535687216213628]
シンボリックDescent(SD)は、訓練および微調整トランスフォーマーモデル(TM)の一般的なアプローチである
SEVENは私たちによって導入され、特に高感度の重み、すなわち小さな勾配雑音の重みが好まれる。
以上の結果から,複数の刈り出しシナリオにおけるSEVENの顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-03-19T12:47:43Z) - The Impact of Quantization on the Robustness of Transformer-based Text
Classifiers [5.281054432963503]
この研究は、NLPモデルのロバスト性に対する量子化の最初の応用である。
SST-2, Emotion, MRデータセットを用いたテキスト分類において, BERT モデルと DistilBERT モデルに対する量子化の影響を評価する。
実験の結果, 量子化は, 対向訓練と比較して平均18.80%の頑健さを増大させることがわかった。
論文 参考訳(メタデータ) (2024-03-08T14:55:05Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - On Robustness of Finetuned Transformer-based NLP Models [11.063628128069736]
CKAとSTIRの2つの指標を用いて、事前訓練された言語モデルと微調整された言語モデル間の変化を特徴付ける。
GPT-2表現はBERTやT5よりも複数の入力摂動に対して堅牢である。
この研究は、人気のあるTransformerベースのモデルの摂動固有の弱点に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-23T18:25:18Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。