論文の概要: The Super Weight in Large Language Models
- arxiv url: http://arxiv.org/abs/2411.07191v1
- Date: Mon, 11 Nov 2024 18:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:13.769466
- Title: The Super Weight in Large Language Models
- Title(参考訳): 大規模言語モデルにおける超軽量化
- Authors: Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan,
- Abstract要約: 単一のパラメータでしか実行できないことは、LLMがテキストを生成する能力を損なう可能性がある。
超重みと呼ばれるパラメータを識別するためのデータフリー手法を提案する。
重み量子化では、スーパーウェイトを保存し、他のウェイトアウトレーヤを切断することで、ラウンド・ツー・アネレスト量子化は以前考えられていたよりもはるかに大きなブロックサイズにスケールできる。
- 参考スコア(独自算出の注目度): 6.517859480071098
- License:
- Abstract: Recent works have shown a surprising result: a small fraction of Large Language Model (LLM) parameter outliers are disproportionately important to the quality of the model. LLMs contain billions of parameters, so these small fractions, such as 0.01%, translate to hundreds of thousands of parameters. In this work, we present an even more surprising finding: Pruning as few as a single parameter can destroy an LLM's ability to generate text -- increasing perplexity by 3 orders of magnitude and reducing zero-shot accuracy to guessing. We propose a data-free method for identifying such parameters, termed super weights, using a single forward pass through the model. We additionally find that these super weights induce correspondingly rare and large activation outliers, termed super activations. When preserved with high precision, super activations can improve simple round-to-nearest quantization to become competitive with state-of-the-art methods. For weight quantization, we similarly find that by preserving the super weight and clipping other weight outliers, round-to-nearest quantization can scale to much larger block sizes than previously considered. To facilitate further research into super weights, we provide an index of super weight coordinates for common, openly available LLMs.
- Abstract(参考訳): 最近の研究は驚くべき結果を示している: LLM(Large Language Model)パラメータのごく一部は、モデルの品質にとって不均等に重要である。
LLM には数十億のパラメータが含まれており、0.01% のようなこれらの小さな割合は数十万のパラメータに翻訳される。
この研究では、さらに驚くべき発見が示される: 単一のパラメータでプルーニングすることで、LLMのテキスト生成能力が損なわれます -- パープレキシティが3桁に増加し、推測のゼロショット精度が低下します。
モデルに1つのフォワードパスを用いて,超重み付けと呼ばれるパラメータを同定する手法を提案する。
さらに、これらのスーパーウェイトは、スーパーアクティベーションと呼ばれる、対応するレアかつ大きなアクティベーションアウトリーを誘導する。
高精度に保存すると、スーパーアクティベーションは単純なラウンド・ツー・アネレスト量子化を改善し、最先端の手法と競合するようになる。
重み量子化では、スーパーウェイトを保存し、他のウェイトアウトレーヤを切断することで、ラウンド・ツー・アネレスト量子化は以前考えられていたよりもはるかに大きなブロックサイズにスケールできる。
スーパーウェイトに関するさらなる研究を容易にするため、我々は、一般に利用可能なLLMのためのスーパーウェイト座標の指標を提供する。
関連論文リスト
- IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - House of Cards: Massive Weights in LLMs [9.73180898820304]
隠れ状態の特定の特徴次元に現れる大量活性化は、大きな言語モデル(LLM)に顕著なバイアスをもたらす
本稿では,初期層におけるフィードフォワードネットワークモジュールの中間状態ではなく,隠れ状態から大量のアクティベーションが生じることを確認した。
そこで本研究では,パラメータ効率の良い微調整を行う際の重みを少なくするため,MacDropと呼ばれる簡単なプラグアンドプレイ方式を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:54:21Z) - LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化$-$は、大規模言語モデルのための単純だが効果的なポストトレーニング重み量子化法である。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来の LLM PTQ よりも, (i) 8$-bit ウェイトおよび (ii) 4$-bit ウェイトおよび (ii) 8$-bit アクティベーション量子化, (iii) 低ビット ウェイトのみの量子化スキームにおける LRQ の優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T09:32:07Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Head-wise Shareable Attention for Large Language Models [56.92068213969036]
大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限している。
ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。
本稿では,大規模言語モデルにおける頭部的共通性に着目した視点を示す。
論文 参考訳(メタデータ) (2024-02-19T04:19:36Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。