論文の概要: LoSparse: Structured Compression of Large Language Models based on
Low-Rank and Sparse Approximation
- arxiv url: http://arxiv.org/abs/2306.11222v2
- Date: Mon, 26 Jun 2023 15:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 20:06:53.617368
- Title: LoSparse: Structured Compression of Large Language Models based on
Low-Rank and Sparse Approximation
- Title(参考訳): LoSparse:低ランクおよびスパース近似に基づく大規模言語モデルの構造化圧縮
- Authors: Yixiao Li, Yifan Yu, Qingru Zhang, Chen Liang, Pengcheng He, Weizhu
Chen, Tuo Zhao
- Abstract要約: トランスフォーマーモデルは、様々な自然言語タスクにおいて顕著な成果を上げてきたが、しばしば禁止的に大きい。
低ランク行列とスパース行列の和で重み行列を近似する新しいモデル圧縮手法であるLoSparseを提案する。
既存の圧縮手法よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 63.04361850630079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have achieved remarkable results in various natural
language tasks, but they are often prohibitively large, requiring massive
memories and computational resources. To reduce the size and complexity of
these models, we propose LoSparse (Low-Rank and Sparse approximation), a novel
model compression technique that approximates a weight matrix by the sum of a
low-rank matrix and a sparse matrix. Our method combines the advantages of both
low-rank approximations and pruning, while avoiding their limitations. Low-rank
approximation compresses the coherent and expressive parts in neurons, while
pruning removes the incoherent and non-expressive parts in neurons. Pruning
enhances the diversity of low-rank approximations, and low-rank approximation
prevents pruning from losing too many expressive neurons. We evaluate our
method on natural language understanding, question answering, and natural
language generation tasks. We show that it significantly outperforms existing
compression methods.
- Abstract(参考訳): トランスフォーマーモデルは、様々な自然言語タスクで顕著な結果を得たが、しばしば非常に大きく、膨大な記憶と計算資源を必要とする。
これらのモデルのサイズと複雑さを小さくするために、低ランク行列とスパース行列の和で重み行列を近似する新しいモデル圧縮手法であるロスパース(低ランクおよびスパース近似)を提案する。
本手法は,低位近似とプルーニングの利点を併せ持つとともに,その限界を回避できる。
低位近似はニューロンのコヒーレントと発現の部分を圧縮し、プルーニングはニューロンの非コヒーレントと非発現の部分を除去する。
プルーニングは低位近似の多様性を高め、低位近似はプルーニングが過剰な発現ニューロンを失うことを防ぐ。
本手法は,自然言語理解,質問応答,自然言語生成タスクについて評価する。
既存の圧縮方法を大幅に上回っていることを示す。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - A Comprehensive Survey of Compression Algorithms for Language Models [10.21587168771851]
我々は,プルーニング,量子化,知識蒸留,低ランク近似,パラメータ共有,効率的なアーキテクチャ設計など,多様な圧縮アルゴリズムを調査し,要約する。
本稿では,圧縮アルゴリズムの各カテゴリの価値と,大規模言語モデルの出現により大きな影響を与える低コスト圧縮アルゴリズムの望ましい特性について論じる。
論文 参考訳(メタデータ) (2024-01-27T08:38:56Z) - CompactifAI: Extreme Compression of Large Language Models using
Quantum-Inspired Tensor Networks [1.60270914221478]
ChatGPTやLlaMAのような大規模言語モデル(LLM)は、生成人工知能(AI)において急速に進歩している。
その巨大なサイズは、巨大なトレーニングと推論コスト、相当なエネルギー需要、オンサイト展開の制限など、大きな課題を生んでいる。
プルーニング、蒸留、低ランク近似といった従来の圧縮手法は、ネットワーク内のニューロンの有効数を減らし、量子化は個々の重みの数値的精度を減らし、ニューロンの固定数を抑えながらモデルサイズを減らすことに重点を置いている。
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - Non-Vacuous Generalization Bounds for Large Language Models [83.10315303618225]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮性が高いことがわかった。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - What Matters In The Structured Pruning of Generative Language Models? [44.86217321428518]
GPT-3のような自動回帰型大規模言語モデルは膨大な計算資源を必要とする。
伝統的に、資源使用量を減らすために構造化プルーニング法が用いられている。
我々は,緑化モデルにおけるニューロンの特異性を改善するため,GUM(Globally Unique Movement)を導入する。
論文 参考訳(メタデータ) (2023-02-07T22:05:55Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。