論文の概要: Structured Pattern Pruning Using Regularization
- arxiv url: http://arxiv.org/abs/2109.08814v1
- Date: Sat, 18 Sep 2021 03:01:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:56:51.025665
- Title: Structured Pattern Pruning Using Regularization
- Title(参考訳): 正規化を用いた構造化パターンプルーニング
- Authors: Dongjun Park, Geung-Hee Lee
- Abstract要約: イテレーティブ・マグニチュード・プルーニング(IMP)は、最小等級の重みを除去し、モデルを再訓練するネットワーク・プルーニング法である。
以前の研究では、構造パターンが出現し、結果として得られた重量が行列のいくつかの行や列に顕著に集まる傾向があることが示されている。
IMPの目的関数に正規化項を追加することにより、圧縮における構造化パターンを事前に誘導する新しいプルーニング機構であるSPURを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Iterative Magnitude Pruning (IMP) is a network pruning method that repeats
the process of removing weights with the least magnitudes and retraining the
model. When visualizing the weight matrices of language models pruned by IMP,
previous research has shown that a structured pattern emerges, wherein the
resulting surviving weights tend to prominently cluster in a select few rows
and columns of the matrix. Though the need for further research in utilizing
these structured patterns for potential performance gains has previously been
indicated, it has yet to be thoroughly studied. We propose SPUR (Structured
Pattern pruning Using Regularization), a novel pruning mechanism that
preemptively induces structured patterns in compression by adding a
regularization term to the objective function in the IMP. Our results show that
SPUR can significantly preserve model performance under high sparsity settings
regardless of the language or the task. Our contributions are as follows: (i)
We propose SPUR, a network pruning mechanism that improves upon IMP regardless
of the language or the task. (ii) We are the first to empirically verify the
efficacy of "structured patterns" observed previously in pruning research.
(iii) SPUR is a resource-efficient mechanism in that it does not require
significant additional computations.
- Abstract(参考訳): イテレーティブ・マグニチュード・プルーニング(英語版)(imp)はネットワーク・プルーニング法であり、最小のマグニチュードで重みを取り除き、モデルを再訓練するプロセスを繰り返す。
IMPにより計算された言語モデルの重み行列を可視化すると、構造化されたパターンが出現し、結果として得られた重みが行列のいくつかの行や列に顕著に集まる傾向が示されている。
これらの構造化パターンをパフォーマンス向上に利用するためのさらなる研究の必要性は以前から示されているが、まだ十分に研究されていない。
本研究では、IMPの目的関数に正規化項を追加することで、圧縮において構造化パターンをプリエンプティブに誘導する新しいプルーニング機構であるSPURを提案する。
この結果から,SPURは言語やタスクに関わらず,高い空間設定下でモデル性能を著しく維持できることがわかった。
私たちの貢献は次のとおりです。
(i)言語やタスクに関わらずIMPを改善するネットワークプルーニング機構であるSPURを提案する。
(II) プレニング研究で観察された「構造化パターン」の有効性を実証的に検証したのは, 初めてである。
(iii)SPURは資源効率のよいメカニズムであり、追加の計算は不要である。
関連論文リスト
- State-space models can learn in-context by gradient descent [1.3087858009942543]
本研究では、状態空間モデルアーキテクチャが勾配に基づく学習を実行し、文脈内学習に使用できることを実証する。
局所自己アテンションを付加した単一構造状態空間モデル層が暗黙線形モデルの出力を再現できることを実証する。
理論的構成は、基礎モデルの典型的な表現力を実現するための鍵となる要素として、繰り返しアーキテクチャにおける局所的な自己注意と乗法的相互作用の役割を解明する。
論文 参考訳(メタデータ) (2024-10-15T15:22:38Z) - Autoregressive Moving-average Attention Mechanism for Time Series Forecasting [9.114664059026767]
本稿では,各種の線形アテンション機構に適応可能な自己回帰(AR)移動平均アテンション構造を提案する。
本稿では、まず、時系列予測(TSF)タスクに対して、これまで見過ごされていたデコーダのみの自己回帰変換モデルが、最良のベースラインに匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2024-10-04T05:45:50Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。
Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文 参考訳(メタデータ) (2024-07-05T16:14:53Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。
本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。
低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文 参考訳(メタデータ) (2024-04-15T11:53:22Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - What Matters In The Structured Pruning of Generative Language Models? [44.86217321428518]
GPT-3のような自動回帰型大規模言語モデルは膨大な計算資源を必要とする。
伝統的に、資源使用量を減らすために構造化プルーニング法が用いられている。
我々は,緑化モデルにおけるニューロンの特異性を改善するため,GUM(Globally Unique Movement)を導入する。
論文 参考訳(メタデータ) (2023-02-07T22:05:55Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。