論文の概要: How To Train Your (Compressed) Large Language Model
- arxiv url: http://arxiv.org/abs/2305.14864v2
- Date: Sun, 19 Nov 2023 01:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:38:35.622810
- Title: How To Train Your (Compressed) Large Language Model
- Title(参考訳): 圧縮された)大きな言語モデルをトレーニングする方法
- Authors: Ananya Harsh Jha, Tom Sherborne, Evan Pete Walsh, Dirk Groeneveld,
Emma Strubell, Iz Beltagy
- Abstract要約: 大規模言語モデルのためのタスク非依存圧縮パイプラインを開発する。
以上の結果から, 単純なレイヤワイドプルーニングに続き, 継続する言語モデルによる事前学習が, 既存の3つの最先端ベースラインを上回り, 性能が向上することが示された。
典型的なタスク特化圧縮とは異なり、最も圧縮されたモデルは、スクラッチから訓練された同様のサイズのモデルよりも大幅に性能が劣る。
- 参考スコア(独自算出の注目度): 29.29267133266529
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the increase in the size of large language models (LLMs), we need
compression methods that can reduce the model size while preserving the
generality and zero-shot promptability of the model. This goal is more
ambitious than the typical compression setup, which reduces the model's size at
the expense of specializing it to a specific end-task. To study this, we
develop a task-agnostic compression pipeline with a large-scale evaluation
comprising language modeling perplexity and 12 zero-shot end-tasks. Our results
show that a simple layer-wise pruning followed by continued language model
pretraining matches or outperforms three existing state-of-the-art baselines
while being 1.5x more computationally efficient. However, unlike typical
task-specialized compression, our best-compressed model significantly
underperforms a similar-sized model trained from scratch. We posit the
half-sized pretrained model as an upper bound for task-agnostic compression and
call for future work to bridge this gap under a reasonable token budget. Our
findings highlight the inadequacy of existing compression methods for LLMs and
establish a requirement for new methods that preserve a model's generality and
zero-shot promptability under compression. We release our code and evaluation
setup to facilitate reproducibility and help iterate on method design.
- Abstract(参考訳): 大規模言語モデル (LLM) のサイズが大きくなると、モデルの汎用性とゼロショットのプロンプト性を保ちながら、モデルのサイズを縮小できる圧縮方法が必要である。
このゴールは一般的な圧縮設定よりも野心的であり、特定のエンドタスクに特化するためにモデルのサイズを減らす。
そこで本研究では,言語モデリングの複雑度と12のゼロショットエンドタスクを含む大規模評価を行うタスク非依存圧縮パイプラインを開発した。
以上の結果から,単純な層毎の刈り取りと継続する言語モデルが,既存の3つの最先端ベースラインを上回って,計算効率が1.5倍向上していることが示された。
しかし、典型的なタスク特化圧縮とは異なり、最良の圧縮モデルは、スクラッチから訓練された同様のサイズのモデルに著しく劣る。
半大の事前訓練モデルをタスクに依存しない圧縮の上限とし、合理的なトークン予算の下でこのギャップを埋めるための今後の作業を求める。
本研究は,既存のllm圧縮手法の欠如を浮き彫りにし,モデルの汎用性と圧縮時のゼロショットプロンサビリティを維持できる新しい方法の必要性を明らかにした。
再現性の向上とメソッド設計の反復を支援するため、コードと評価のセットアップをリリースします。
関連論文リスト
- Model Compression and Efficient Inference for Large Language Models: A
Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。
大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。
大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文 参考訳(メタデータ) (2024-02-15T06:58:30Z) - Activations and Gradients Compression for Model-Parallel Training [91.12425544503395]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Structural Dropout for Model Width Compression [1.52292571922932]
既存のMLモデルは高度に過度にパラメータ化され、与えられたタスクに必要なリソースよりもはるかに多くのリソースを使用することが知られている。
本稿では,オリジナルのモデルと圧縮モデルのセットに対して,1つのトレーニングセッションのみを必要とする手法を提案する。
提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。
論文 参考訳(メタデータ) (2022-05-13T21:50:57Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。