論文の概要: How To Train Your (Compressed) Large Language Model
- arxiv url: http://arxiv.org/abs/2305.14864v2
- Date: Sun, 19 Nov 2023 01:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:38:35.622810
- Title: How To Train Your (Compressed) Large Language Model
- Title(参考訳): 圧縮された)大きな言語モデルをトレーニングする方法
- Authors: Ananya Harsh Jha, Tom Sherborne, Evan Pete Walsh, Dirk Groeneveld,
Emma Strubell, Iz Beltagy
- Abstract要約: 大規模言語モデルのためのタスク非依存圧縮パイプラインを開発する。
以上の結果から, 単純なレイヤワイドプルーニングに続き, 継続する言語モデルによる事前学習が, 既存の3つの最先端ベースラインを上回り, 性能が向上することが示された。
典型的なタスク特化圧縮とは異なり、最も圧縮されたモデルは、スクラッチから訓練された同様のサイズのモデルよりも大幅に性能が劣る。
- 参考スコア(独自算出の注目度): 29.29267133266529
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the increase in the size of large language models (LLMs), we need
compression methods that can reduce the model size while preserving the
generality and zero-shot promptability of the model. This goal is more
ambitious than the typical compression setup, which reduces the model's size at
the expense of specializing it to a specific end-task. To study this, we
develop a task-agnostic compression pipeline with a large-scale evaluation
comprising language modeling perplexity and 12 zero-shot end-tasks. Our results
show that a simple layer-wise pruning followed by continued language model
pretraining matches or outperforms three existing state-of-the-art baselines
while being 1.5x more computationally efficient. However, unlike typical
task-specialized compression, our best-compressed model significantly
underperforms a similar-sized model trained from scratch. We posit the
half-sized pretrained model as an upper bound for task-agnostic compression and
call for future work to bridge this gap under a reasonable token budget. Our
findings highlight the inadequacy of existing compression methods for LLMs and
establish a requirement for new methods that preserve a model's generality and
zero-shot promptability under compression. We release our code and evaluation
setup to facilitate reproducibility and help iterate on method design.
- Abstract(参考訳): 大規模言語モデル (LLM) のサイズが大きくなると、モデルの汎用性とゼロショットのプロンプト性を保ちながら、モデルのサイズを縮小できる圧縮方法が必要である。
このゴールは一般的な圧縮設定よりも野心的であり、特定のエンドタスクに特化するためにモデルのサイズを減らす。
そこで本研究では,言語モデリングの複雑度と12のゼロショットエンドタスクを含む大規模評価を行うタスク非依存圧縮パイプラインを開発した。
以上の結果から,単純な層毎の刈り取りと継続する言語モデルが,既存の3つの最先端ベースラインを上回って,計算効率が1.5倍向上していることが示された。
しかし、典型的なタスク特化圧縮とは異なり、最良の圧縮モデルは、スクラッチから訓練された同様のサイズのモデルに著しく劣る。
半大の事前訓練モデルをタスクに依存しない圧縮の上限とし、合理的なトークン予算の下でこのギャップを埋めるための今後の作業を求める。
本研究は,既存のllm圧縮手法の欠如を浮き彫りにし,モデルの汎用性と圧縮時のゼロショットプロンサビリティを維持できる新しい方法の必要性を明らかにした。
再現性の向上とメソッド設計の反復を支援するため、コードと評価のセットアップをリリースします。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。
本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with
Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。
The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文 参考訳(メタデータ) (2024-03-12T17:24:26Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。