論文の概要: How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark
- arxiv url: http://arxiv.org/abs/2312.13547v1
- Date: Thu, 21 Dec 2023 03:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 16:04:20.560186
- Title: How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark
- Title(参考訳): 言語モデルをPruneする方法: "Sparsity May Cry''ベンチマークの正確さの回復
- Authors: Eldar Kurtic, Torsten Hoefler, Dan Alistarh
- Abstract要約: 下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
- 参考スコア(独自算出の注目度): 60.72725673114168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning large language models (LLMs) from the BERT family has emerged as a
standard compression benchmark, and several pruning methods have been proposed
for this task. The recent ``Sparsity May Cry'' (SMC) benchmark put into
question the validity of all existing methods, exhibiting a more complex setup
where many known pruning methods appear to fail. We revisit the question of
accurate BERT-pruning during fine-tuning on downstream datasets, and propose a
set of general guidelines for successful pruning, even on the challenging SMC
benchmark. First, we perform a cost-vs-benefits analysis of pruning model
components, such as the embeddings and the classification head; second, we
provide a simple-yet-general way of scaling training, sparsification and
learning rate schedules relative to the desired target sparsity; finally, we
investigate the importance of proper parametrization for Knowledge Distillation
in the context of LLMs. Our simple insights lead to state-of-the-art results,
both on classic BERT-pruning benchmarks, as well as on the SMC benchmark,
showing that even classic gradual magnitude pruning (GMP) can yield competitive
results, with the right approach.
- Abstract(参考訳): BERTファミリーから大規模言語モデル(LLM)を抽出する手法が標準圧縮ベンチマークとして登場し,この課題に対していくつかのプルーニング手法が提案されている。
最近の `sparsity may cry'' (smc) ベンチマークは、既存のすべてのメソッドの妥当性に疑問を呈し、多くの既知のpruningメソッドが失敗するより複雑な設定を示した。
下流のデータセットを微調整する際の正確なbert-pruningの問題を再検討し、挑戦的なsmcベンチマークでもpruning成功のための一般的なガイドラインを提案する。
第一に,埋め込みや分類ヘッドなどのモデルコンポーネントのコスト対効果分析を行い,第二に,目標のスパース性に対するトレーニング,スパース化,学習率スケジュールの簡易化方法を提案し,最後に,llmの文脈における知識蒸留における適切なパラメトリゼーションの重要性について検討した。
我々の単純な洞察は、古典的なBERTプルーニングベンチマークとSMCベンチマークの両方で最先端の結果をもたらし、古典的な段階的なプルーニング(GMP)でさえ、正しいアプローチで競争結果が得られることを示した。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Generative Calibration for In-context Learning [20.207930451266822]
本稿では,このようなパラドックスが主にコンテキスト内モデルからデータ分布へのラベルシフトによるものであることを示す。
この理解により、ラベルの辺りを調整してコンテキスト内予測分布を調整できる。
我々は,本手法を生成的キャリブレーション(generative calibration)と呼び,12のテキスト分類タスクと12のLLMを774Mから33Bに拡張した徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-10-16T10:45:02Z) - Learning Efficient Coding of Natural Images with Maximum Manifold
Capacity Representations [4.666056064419346]
効率的な符号化仮説は、感覚系の応答特性が入力の統計に適応していることを提案する。
エレガントではあるものの、情報理論の特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。
ここでは、多様体の容量を直接最適化し、最大多様体容量表現(MMCR)が得られるという仮定を概説する。
論文 参考訳(メタデータ) (2023-03-06T17:26:30Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most
BERT-Pruning Methods [27.761221746022365]
大規模言語モデルのための古典的な段階的プルーニング(GMP)ベースラインの性能を再検討する。
我々は、GMP* と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-12T16:35:47Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z) - MMCGAN: Generative Adversarial Network with Explicit Manifold Prior [78.58159882218378]
本稿では,モード崩壊を緩和し,GANのトレーニングを安定させるために,明示的な多様体学習を採用することを提案する。
玩具データと実データの両方を用いた実験により,MMCGANのモード崩壊緩和効果,トレーニングの安定化,生成サンプルの品質向上効果が示された。
論文 参考訳(メタデータ) (2020-06-18T07:38:54Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。