論文の概要: Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior
- arxiv url: http://arxiv.org/abs/2010.01791v1
- Date: Mon, 5 Oct 2020 05:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:21:54.666920
- Title: Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior
- Title(参考訳): スペクトルNormalized Identity Priorによる変圧器モデルの冗長写像
- Authors: Zi Lin, Jeremiah Zhe Liu, Zi Yang, Nan Hua, Dan Roth
- Abstract要約: スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
- 参考スコア(独自算出の注目度): 54.629850694790036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional (unstructured) pruning methods for a Transformer model focus on
regularizing the individual weights by penalizing them toward zero. In this
work, we explore spectral-normalized identity priors (SNIP), a structured
pruning approach that penalizes an entire residual module in a Transformer
model toward an identity mapping. Our method identifies and discards
unimportant non-linear mappings in the residual connections by applying a
thresholding operator on the function norm. It is applicable to any structured
module, including a single attention head, an entire attention block, or a
feed-forward subnetwork. Furthermore, we introduce spectral normalization to
stabilize the distribution of the post-activation values of the Transformer
layers, further improving the pruning effectiveness of the proposed
methodology. We conduct experiments with BERT on 5 GLUE benchmark tasks to
demonstrate that SNIP achieves effective pruning results while maintaining
comparable performance. Specifically, we improve the performance over the
state-of-the-art by 0.5 to 1.0% on average at 50% compression ratio.
- Abstract(参考訳): トランスフォーマーモデルの伝統的な(非構造的な)プルーニング法は、個々の重みを 0 に罰することに集中する。
本研究では,Transformer モデルにおける残余モジュール全体を恒常化させる構造的プルーニング手法であるスペクトル正規化アイデンティティ事前(SNIP)について検討する。
本手法は,しきい値演算子を関数ノルムに適用することにより,残差接続における重要でない非線形写像を識別・破棄する。
単一のアテンションヘッド、全体アテンションブロック、フィードフォワードサブネットワークを含む任意の構造化モジュールに適用できる。
さらに, 変圧器層のポストアクティベーション値の分布を安定させるためにスペクトル正規化を導入し, 提案手法の刈り取り効果をさらに向上させる。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
具体的には,50%圧縮比の平均0.5~1.0%の性能向上を図る。
関連論文リスト
- ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。
GLUEデータセット上の分類タスクについて広範な実験を行った。
GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文 参考訳(メタデータ) (2024-07-11T09:35:08Z) - UnitNorm: Rethinking Normalization for Transformers in Time Series [9.178527914585446]
正規化技術は,時系列解析タスクにおけるトランスフォーマーモデルの性能向上と安定性向上に不可欠である。
入力ベクトルをノルムで拡張し、注意パターンを変調する新しい手法であるUnitNormを提案する。
UnitNormの有効性は、予測、分類、異常検出など、さまざまな時系列分析タスクで実証されている。
論文 参考訳(メタデータ) (2024-05-24T19:58:25Z) - Hidden Synergy: $L_1$ Weight Normalization and 1-Path-Norm Regularization [0.0]
PSiLON Netの設計が1-path-normを大幅に単純化することを示す。
そこで本研究では,訓練の最終段階において,正確な空間性を実現するためのプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T21:25:25Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Entropy Transformer Networks: A Learning Approach via Tangent Bundle
Data Manifold [8.893886200299228]
本稿では,CNNアーキテクチャの設計における画像変換の高精度かつ高速なアプローチについて述べる。
データ多様体分布を補間する新しいエントロピーSTN(ESTN)を提案する。
挑戦的なベンチマークの実験は、提案されたESTNがコンピュータビジョンタスクの範囲で予測精度を向上させることを示している。
論文 参考訳(メタデータ) (2023-07-24T04:21:51Z) - Deterministic Decoupling of Global Features and its Application to Data
Analysis [0.0]
部分多様体上の変換の定義に基づく新しい定式化を提案する。
これらの変換を通じて正規化を定義し、それを実証することで、微分可能な特徴を分離することができる。
本手法を,グローバルな記述子に基づく回帰・分類問題に対して,元のデータ領域とフィルタバンクの出力に適用する。
論文 参考訳(メタデータ) (2022-07-05T15:54:39Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。