論文の概要: SEVEN: Pruning Transformer Model by Reserving Sentinels
- arxiv url: http://arxiv.org/abs/2403.12688v1
- Date: Tue, 19 Mar 2024 12:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:13:49.833565
- Title: SEVEN: Pruning Transformer Model by Reserving Sentinels
- Title(参考訳): SEVEN: センチネル保存による変圧器モデルの構築
- Authors: Jinying Xiao, Ping Li, Jie Nie, Zhe Tang,
- Abstract要約: シンボリックDescent(SD)は、訓練および微調整トランスフォーマーモデル(TM)の一般的なアプローチである
SEVENは私たちによって導入され、特に高感度の重み、すなわち小さな勾配雑音の重みが好まれる。
以上の結果から,複数の刈り出しシナリオにおけるSEVENの顕著な改善が得られた。
- 参考スコア(独自算出の注目度): 18.535687216213628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Transformer models (TM) have demonstrated outstanding performance across various tasks. However, their considerable parameter size restricts their applicability, particularly on mobile devices. Due to the dynamic and intricate nature of gradients on TM compared to Convolutional Neural Networks, commonly used pruning methods tend to retain weights with larger gradient noise. This results in pruned models that are sensitive to sparsity and datasets, exhibiting suboptimal performance. Symbolic Descent (SD) is a general approach for training and fine-tuning TM. In this paper, we attempt to describe the noisy batch gradient sequences on TM through the cumulative process of SD. We utilize this design to dynamically assess the importance scores of weights.SEVEN is introduced by us, which particularly favors weights with consistently high sensitivity, i.e., weights with small gradient noise. These weights are tended to be preserved by SEVEN. Extensive experiments on various TM in natural language, question-answering, and image classification domains are conducted to validate the effectiveness of SEVEN. The results demonstrate significant improvements of SEVEN in multiple pruning scenarios and across different sparsity levels. Additionally, SEVEN exhibits robust performance under various fine-tuning strategies. The code is publicly available at https://github.com/xiaojinying/SEVEN.
- Abstract(参考訳): 大規模トランスフォーマーモデル (TM) は様々なタスクにおいて優れた性能を示した。
しかし、そのかなりのパラメータサイズは、特にモバイルデバイスにおける適用性を制限している。
畳み込みニューラルネットワークと比較して、TM上の勾配の動的かつ複雑な性質のため、一般的に用いられるプルーニング法は、より大きな勾配雑音を持つ重みを保持する傾向にある。
これにより、スパーシリティやデータセットに敏感なプルーニングモデルが、最適以下の性能を示す。
シンボリック・Descent (SD) は、訓練と微調整のための一般的なアプローチである。
本稿では,SDの累積過程を通じて,TM上のノイズの多いバッチ勾配列を記述しようとする。
我々はこの設計を用いて重みの重要度を動的に評価する。SEVENは特に高感度の重み、すなわち低勾配雑音の重みを常に好んでいる。
これらの重量はSEVENによって保存される傾向にある。
SEVENの有効性を検証するために、自然言語、質問応答、画像分類領域における様々なTMに関する広範囲な実験を行った。
以上の結果から,複数の刈り出しシナリオにおけるSEVENの顕著な改善が得られた。
さらに、SEVENは様々な微調整戦略の下で堅牢なパフォーマンスを示す。
コードはhttps://github.com/xiaojinying/SEVENで公開されている。
関連論文リスト
- Understanding the robustness difference between stochastic gradient
descent and adaptive gradient methods [11.895321856533934]
勾配降下法(SGD)と適応勾配法はディープニューラルネットワークの訓練に広く用いられている。
これらの手法を用いて訓練したモデルの標準一般化性能の差は小さいが、SGDを用いて訓練したモデルは入力摂動下でははるかに頑健であることを示す。
論文 参考訳(メタデータ) (2023-08-13T07:03:22Z) - Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Improving Robustness with Adaptive Weight Decay [8.096469295357737]
本稿では,各トレーニング中の重み減衰に対するハイパーパラメータ反復を自動調整する適応的重み減衰法を提案する。
この単純な修正は、ロバスト性に大きな改善をもたらす可能性があることを示す。
この手法には、学習率に対する感度の低下や重量ノルムの低下など、他の望ましい性質がある。
論文 参考訳(メタデータ) (2022-09-30T21:13:00Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Dynamic Collective Intelligence Learning: Finding Efficient Sparse Model
via Refined Gradients for Pruned Weights [31.68257673664519]
動的プルーニング法は, STE(Straight-Through-Estimator)を用いて, プルーニング重量の勾配を近似することにより, トレーニング中に多様なスペーサ性パターンを求める。
我々は,2組の重みから2つの前方経路を形成することにより,刈り上げ重みを更新するための洗練された勾配を導入する。
本稿では,両重み集合の集合的知性間の学習相乗効果を利用した新しい動的集団知能学習(DCIL)を提案する。
論文 参考訳(メタデータ) (2021-09-10T04:41:17Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。