論文の概要: Massive Language Models Can Be Accurately Pruned in One-Shot
- arxiv url: http://arxiv.org/abs/2301.00774v1
- Date: Mon, 2 Jan 2023 17:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:37:05.464236
- Title: Massive Language Models Can Be Accurately Pruned in One-Shot
- Title(参考訳): 大規模言語モデルはワンショットで正確に処理できる
- Authors: Elias Frantar, Dan Alistarh
- Abstract要約: 大規模生成事前学習型トランスフォーマー(GPT)ファミリーモデルが1ショットで少なくとも50%の間隔で切断できることを初めて示す。
これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
- 参考スコア(独自算出の注目度): 29.284147465251685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show for the first time that large-scale generative pretrained transformer
(GPT) family models can be pruned to at least 50% sparsity in one-shot, without
any retraining, at minimal loss of accuracy. This is achieved via a new pruning
method called SparseGPT, specifically designed to work efficiently and
accurately on massive GPT-family models. When executing SparseGPT on the
largest available open-source models, OPT-175B and BLOOM-176B, we can reach 60%
sparsity with negligible increase in perplexity: remarkably, more than 100
billion weights from these models can be ignored at inference time. SparseGPT
generalizes to semi-structured (2:4 and 4:8) patterns, and is compatible with
weight quantization approaches.
- Abstract(参考訳): 大規模な生成事前学習型トランスフォーマー(GPT)ファミリーモデルでは,1ショットで少なくとも50%の間隔で再学習することなく,精度の低下を最小限に抑えることができた。
これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
利用可能な最大のオープンソースモデルであるOPT-175BとBLOOM-176BでSparseGPTを実行する場合、パープレキシティが無視できるほど60%の範囲に到達できる。
SparseGPTは半構造化(2:4および4:8)パターンに一般化し、重み量子化アプローチと互換性がある。
関連論文リスト
- Optimizing Large Model Training through Overlapped Activation Recomputation [24.461674158317578]
既存の再計算アプローチでは、実世界のモデルをトレーニングする際に最大40%のオーバーヘッドが発生する可能性がある。
これは、クリティカルトレーニングパスで要求に応じて実行されるためです。
我々は、トレーニングパイプラインで発生する通信と再計算を重複させることでオーバーヘッドを削減するために、新しい再計算フレームワーク、Lynxを設計する。
論文 参考訳(メタデータ) (2024-06-13T02:31:36Z) - Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - TensorGPT: Efficient Compression of Large Language Models based on Tensor-Train Decomposition [19.897367559948336]
行列-トレイン分解(TTD)に基づく学習自由モデル圧縮手法を提案する。
次に,本手法により抽出された低ランク構造を,典型的なローエンドデバイス(Raspberry Pi)の圧縮率,言語タスク性能,レイテンシの観点から検討する。
論文 参考訳(メタデータ) (2023-07-02T09:33:09Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - GPTQ: Accurate Post-Training Quantization for Generative Pre-trained
Transformers [34.91478831993398]
GPTQは、近似二階情報に基づく新しい一発量量子化法である。
約4GPU時間で、1750億のパラメータを持つGPTモデルを定量化できる。
提案手法は,従来提案したワンショット量子化法と比較して圧縮ゲインを2倍以上に向上させる。
論文 参考訳(メタデータ) (2022-10-31T13:42:40Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - OPT: Open Pre-trained Transformer Language Models [99.60254017109551]
125Mから175Bのパラメータからなるデコーダのみの事前学習トランスであるOpen Pre-trained Transformers (OPT)を提案する。
OPT-175BはGPT-3に匹敵するが, 炭素フットプリントの1/7しか必要としない。
論文 参考訳(メタデータ) (2022-05-02T17:49:50Z) - ByT5 model for massively multilingual grapheme-to-phoneme conversion [13.672109728462663]
ByT5をベースとしたG2Pモデルを実装することで,多言語グラフから音素への変換を実現する。
バイトレベルの入力で動作する ByT5 は,多言語G2P でトークンベースの mT5 モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-04-06T20:03:38Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。