論文の概要: Know What You Don't Need: Single-Shot Meta-Pruning for Attention Heads
- arxiv url: http://arxiv.org/abs/2011.03770v1
- Date: Sat, 7 Nov 2020 12:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:34:52.662330
- Title: Know What You Don't Need: Single-Shot Meta-Pruning for Attention Heads
- Title(参考訳): 要らないものを知る:単ショットのメタ・プルーニング
- Authors: Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Qun Liu, Maosong Sun
- Abstract要約: 微調整前に深部学習前変換器を圧縮する単一ショットメタプランニング法を提案する。
下流の様々なタスクに適応的に不必要な注意を向けることに注力する。
事前学習したモデルに対する既存の圧縮手法と比較して、微調整と推論の両方のオーバーヘッドを低減することができる。
- 参考スコア(独自算出の注目度): 114.77890059625162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep pre-trained Transformer models have achieved state-of-the-art results
over a variety of natural language processing (NLP) tasks. By learning rich
language knowledge with millions of parameters, these models are usually
overparameterized and significantly increase the computational overhead in
applications. It is intuitive to address this issue by model compression. In
this work, we propose a method, called Single-Shot Meta-Pruning, to compress
deep pre-trained Transformers before fine-tuning. Specifically, we focus on
pruning unnecessary attention heads adaptively for different downstream tasks.
To measure the informativeness of attention heads, we train our Single-Shot
Meta-Pruner (SMP) with a meta-learning paradigm aiming to maintain the
distribution of text representations after pruning. Compared with existing
compression methods for pre-trained models, our method can reduce the overhead
of both fine-tuning and inference. Experimental results show that our pruner
can selectively prune 50% of attention heads with little impact on the
performance on downstream tasks and even provide better text representations.
The source code will be released in the future.
- Abstract(参考訳): ディープラーニングトランスフォーマーモデルは、さまざまな自然言語処理(NLP)タスクに対して最先端の結果を得た。
数百万のパラメータでリッチな言語知識を学習することで、これらのモデルは通常過度にパラメータ化され、アプリケーションの計算オーバーヘッドが大幅に増加する。
モデル圧縮によってこの問題に対処するのは直感的です。
本研究では,事前学習されたトランスフォーマーを微調整する前に圧縮する単発メタプルーニング法を提案する。
具体的には,異なる下流タスクに適応して,不要な注意ヘッドの刈り込みに注目する。
注視頭部の情報量を測定するため,単ショットメタプランナ(SMP)を,プルーニング後のテキスト表現の分布維持を目的としたメタラーニングパラダイムで訓練する。
事前学習したモデルに対する既存の圧縮手法と比較して、微調整と推論の両方のオーバーヘッドを低減することができる。
実験結果から,提案プルーナーはダウンストリームタスクの性能にほとんど影響を与えず,50%の注意を選択的に引き出すことができ,テキスト表現も改善できることがわかった。
ソースコードは将来的にリリースされる予定だ。
関連論文リスト
- A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Pruning Pre-trained Language Models Without Fine-Tuning [42.54071630668426]
PLMを下流タスクに収束させるのに1次プルーニングは十分であるので、ファインチューニングは1次プルーニングには冗長である、と我々は主張する。
そこで本研究では,SMP(Static Model Pruning)を提案する。これは1次プルーニングのみを用いて,目的の空間レベルを達成しつつ,PLMを下流タスクに適応させる。
論文 参考訳(メタデータ) (2022-10-12T13:58:38Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。