Fugu-MT 論文翻訳(概要): Pruning Redundant Mappings in Transformer Models via Spectral-Normalized Identity Prior

論文の概要: Pruning Redundant Mappings in Transformer Models via Spectral-Normalized Identity Prior

arxiv url: http://arxiv.org/abs/2010.01791v1
Date: Mon, 5 Oct 2020 05:40:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 21:21:54.666920
Title: Pruning Redundant Mappings in Transformer Models via Spectral-Normalized Identity Prior
Title（参考訳）: スペクトルNormalized Identity Priorによる変圧器モデルの冗長写像
Authors: Zi Lin, Jeremiah Zhe Liu, Zi Yang, Nan Hua, Dan Roth
Abstract要約: スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。 5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
参考スコア（独自算出の注目度）: 54.629850694790036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional (unstructured) pruning methods for a Transformer model focus on regularizing the individual weights by penalizing them toward zero. In this work, we explore spectral-normalized identity priors (SNIP), a structured pruning approach that penalizes an entire residual module in a Transformer model toward an identity mapping. Our method identifies and discards unimportant non-linear mappings in the residual connections by applying a thresholding operator on the function norm. It is applicable to any structured module, including a single attention head, an entire attention block, or a feed-forward subnetwork. Furthermore, we introduce spectral normalization to stabilize the distribution of the post-activation values of the Transformer layers, further improving the pruning effectiveness of the proposed methodology. We conduct experiments with BERT on 5 GLUE benchmark tasks to demonstrate that SNIP achieves effective pruning results while maintaining comparable performance. Specifically, we improve the performance over the state-of-the-art by 0.5 to 1.0% on average at 50% compression ratio.
Abstract（参考訳）: トランスフォーマーモデルの伝統的な(非構造的な)プルーニング法は、個々の重みを 0 に罰することに集中する。本研究では,Transformer モデルにおける残余モジュール全体を恒常化させる構造的プルーニング手法であるスペクトル正規化アイデンティティ事前(SNIP)について検討する。本手法は,しきい値演算子を関数ノルムに適用することにより,残差接続における重要でない非線形写像を識別・破棄する。単一のアテンションヘッド、全体アテンションブロック、フィードフォワードサブネットワークを含む任意の構造化モジュールに適用できる。さらに, 変圧器層のポストアクティベーション値の分布を安定させるためにスペクトル正規化を導入し, 提案手法の刈り取り効果をさらに向上させる。 5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。具体的には,50%圧縮比の平均0.5～1.0%の性能向上を図る。

関連論文リスト

Modes of Sequence Models and Learning Coefficients [0.6906005491572401]
変換器ネットワークにおける損失ランドスケープの計測可能な特性とデータ中のパターンをリンクするシーケンスモデリングの幾何学的記述を開発する。局所学習係数の推定値がデータ依存しきい値以下のモードに無関心であることを理論的に示す。この洞察は、ネットワークパラメータが人口減少の厳格な最小限ではない場合でも、なぜ信頼できるLLC推定値が得られるのかを明らかにする。
論文参考訳（メタデータ） (2025-04-25T03:38:10Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文参考訳（メタデータ） (2025-01-06T06:34:52Z)
ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。 GLUEデータセット上の分類タスクについて広範な実験を行った。 GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文参考訳（メタデータ） (2024-07-11T09:35:08Z)
UnitNorm: Rethinking Normalization for Transformers in Time Series [9.178527914585446]
正規化技術は,時系列解析タスクにおけるトランスフォーマーモデルの性能向上と安定性向上に不可欠である。入力ベクトルをノルムで拡張し、注意パターンを変調する新しい手法であるUnitNormを提案する。 UnitNormの有効性は、予測、分類、異常検出など、さまざまな時系列分析タスクで実証されている。
論文参考訳（メタデータ） (2024-05-24T19:58:25Z)
Hidden Synergy: $L_1$ Weight Normalization and 1-Path-Norm Regularization [0.0]
PSiLON Netの設計が1-path-normを大幅に単純化することを示す。そこで本研究では,訓練の最終段階において,正確な空間性を実現するためのプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-04-29T21:25:25Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Entropy Transformer Networks: A Learning Approach via Tangent Bundle Data Manifold [8.893886200299228]
本稿では,CNNアーキテクチャの設計における画像変換の高精度かつ高速なアプローチについて述べる。データ多様体分布を補間する新しいエントロピーSTN(ESTN)を提案する。挑戦的なベンチマークの実験は、提案されたESTNがコンピュータビジョンタスクの範囲で予測精度を向上させることを示している。
論文参考訳（メタデータ） (2023-07-24T04:21:51Z)
Deterministic Decoupling of Global Features and its Application to Data Analysis [0.0]
部分多様体上の変換の定義に基づく新しい定式化を提案する。これらの変換を通じて正規化を定義し、それを実証することで、微分可能な特徴を分離することができる。本手法を,グローバルな記述子に基づく回帰・分類問題に対して,元のデータ領域とフィルタバンクの出力に適用する。
論文参考訳（メタデータ） (2022-07-05T15:54:39Z)
Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。 DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文参考訳（メタデータ） (2021-10-10T18:04:59Z)
Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文参考訳（メタデータ） (2021-01-15T11:39:09Z)
Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文参考訳（メタデータ） (2020-08-07T02:55:28Z)
Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文参考訳（メタデータ） (2020-04-02T10:14:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。