論文の概要: Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior
- arxiv url: http://arxiv.org/abs/2010.01791v1
- Date: Mon, 5 Oct 2020 05:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:21:54.666920
- Title: Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior
- Title(参考訳): スペクトルNormalized Identity Priorによる変圧器モデルの冗長写像
- Authors: Zi Lin, Jeremiah Zhe Liu, Zi Yang, Nan Hua, Dan Roth
- Abstract要約: スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
- 参考スコア(独自算出の注目度): 54.629850694790036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional (unstructured) pruning methods for a Transformer model focus on
regularizing the individual weights by penalizing them toward zero. In this
work, we explore spectral-normalized identity priors (SNIP), a structured
pruning approach that penalizes an entire residual module in a Transformer
model toward an identity mapping. Our method identifies and discards
unimportant non-linear mappings in the residual connections by applying a
thresholding operator on the function norm. It is applicable to any structured
module, including a single attention head, an entire attention block, or a
feed-forward subnetwork. Furthermore, we introduce spectral normalization to
stabilize the distribution of the post-activation values of the Transformer
layers, further improving the pruning effectiveness of the proposed
methodology. We conduct experiments with BERT on 5 GLUE benchmark tasks to
demonstrate that SNIP achieves effective pruning results while maintaining
comparable performance. Specifically, we improve the performance over the
state-of-the-art by 0.5 to 1.0% on average at 50% compression ratio.
- Abstract(参考訳): トランスフォーマーモデルの伝統的な(非構造的な)プルーニング法は、個々の重みを 0 に罰することに集中する。
本研究では,Transformer モデルにおける残余モジュール全体を恒常化させる構造的プルーニング手法であるスペクトル正規化アイデンティティ事前(SNIP)について検討する。
本手法は,しきい値演算子を関数ノルムに適用することにより,残差接続における重要でない非線形写像を識別・破棄する。
単一のアテンションヘッド、全体アテンションブロック、フィードフォワードサブネットワークを含む任意の構造化モジュールに適用できる。
さらに, 変圧器層のポストアクティベーション値の分布を安定させるためにスペクトル正規化を導入し, 提案手法の刈り取り効果をさらに向上させる。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
具体的には,50%圧縮比の平均0.5~1.0%の性能向上を図る。
関連論文リスト
- Minusformer: Improving Time Series Forecasting by Progressively Learning
Residuals [15.815842882043734]
我々は,情報集約機構を付加と減算から再構築することで,バニラ変圧器を改修する。
本稿では,原モデルの各ブロックに補助出力分岐を組み込んで,最終的な予測に導くハイウェイを構築する。
提案手法は既存の最先端手法よりも優れており,各データセットの平均性能は11.9%向上した。
論文 参考訳(メタデータ) (2024-02-04T03:54:31Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Entropy Transformer Networks: A Learning Approach via Tangent Bundle
Data Manifold [8.893886200299228]
本稿では,CNNアーキテクチャの設計における画像変換の高精度かつ高速なアプローチについて述べる。
データ多様体分布を補間する新しいエントロピーSTN(ESTN)を提案する。
挑戦的なベンチマークの実験は、提案されたESTNがコンピュータビジョンタスクの範囲で予測精度を向上させることを示している。
論文 参考訳(メタデータ) (2023-07-24T04:21:51Z) - Deterministic Decoupling of Global Features and its Application to Data
Analysis [0.0]
部分多様体上の変換の定義に基づく新しい定式化を提案する。
これらの変換を通じて正規化を定義し、それを実証することで、微分可能な特徴を分離することができる。
本手法を,グローバルな記述子に基づく回帰・分類問題に対して,元のデータ領域とフィルタバンクの出力に適用する。
論文 参考訳(メタデータ) (2022-07-05T15:54:39Z) - Counterbalancing Teacher: Regularizing Batch Normalized Models for
Robustness [15.395021925719817]
バッチ正規化(BN)は、より精度の高い収束を加速するディープニューラルネットワークのトレーニング技術である。
BNは、トレーニング(ドメイン内)データに非常に依存する低分散機能に依存してモデルにインセンティブを与えることを示す。
本稿では,学生ネットワークの頑健な表現の学習を強制するために,反バランス教師(CT)を提案する。
論文 参考訳(メタデータ) (2022-07-04T16:16:24Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。