論文の概要: LoSparse: Structured Compression of Large Language Models based on
Low-Rank and Sparse Approximation
- arxiv url: http://arxiv.org/abs/2306.11222v1
- Date: Tue, 20 Jun 2023 01:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 16:01:34.291753
- Title: LoSparse: Structured Compression of Large Language Models based on
Low-Rank and Sparse Approximation
- Title(参考訳): LoSparse:低ランクおよびスパース近似に基づく大規模言語モデルの構造化圧縮
- Authors: Yixiao Li, Yifan Yu, Qingru Zhang, Chen Liang, Pengcheng He, Weizhu
Chen, Tuo Zhao
- Abstract要約: トランスフォーマーモデルは、様々な自然言語タスクにおいて顕著な成果を上げてきたが、しばしば禁止的に大きい。
低ランク行列とスパース行列の和で重み行列を近似する新しいモデル圧縮手法であるLoSparseを提案する。
既存の圧縮手法よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 63.04361850630079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have achieved remarkable results in various natural
language tasks, but they are often prohibitively large, requiring massive
memories and computational resources. To reduce the size and complexity of
these models, we propose LoSparse (Low-Rank and Sparse approximation), a novel
model compression technique that approximates a weight matrix by the sum of a
low-rank matrix and a sparse matrix. Our method combines the advantages of both
low-rank approximations and pruning, while avoiding their limitations. Low-rank
approximation compresses the coherent and expressive parts in neurons, while
pruning removes the incoherent and non-expressive parts in neurons. Pruning
enhances the diversity of low-rank approximations, and low-rank approximation
prevents pruning from losing too many expressive neurons. We evaluate our
method on natural language understanding, question answering, and natural
language generation tasks. We show that it significantly outperforms existing
compression methods.
- Abstract(参考訳): トランスフォーマーモデルは、様々な自然言語タスクで顕著な結果を得たが、しばしば非常に大きく、膨大な記憶と計算資源を必要とする。
これらのモデルのサイズと複雑さを小さくするために、低ランク行列とスパース行列の和で重み行列を近似する新しいモデル圧縮手法であるロスパース(低ランクおよびスパース近似)を提案する。
本手法は,低位近似とプルーニングの利点を併せ持つとともに,その限界を回避できる。
低位近似はニューロンのコヒーレントと発現の部分を圧縮し、プルーニングはニューロンの非コヒーレントと非発現の部分を除去する。
プルーニングは低位近似の多様性を高め、低位近似はプルーニングが過剰な発現ニューロンを失うことを防ぐ。
本手法は,自然言語理解,質問応答,自然言語生成タスクについて評価する。
既存の圧縮方法を大幅に上回っていることを示す。
関連論文リスト
- Differential error feedback for communication-efficient decentralized learning [48.924131251745266]
本稿では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。
その結果,平均二乗誤差と平均ビットレートの両面において通信効率が安定であることが示唆された。
その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
論文 参考訳(メタデータ) (2024-06-26T15:11:26Z) - Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - A Comprehensive Survey of Compression Algorithms for Language Models [10.21587168771851]
我々は,プルーニング,量子化,知識蒸留,低ランク近似,パラメータ共有,効率的なアーキテクチャ設計など,多様な圧縮アルゴリズムを調査し,要約する。
本稿では,圧縮アルゴリズムの各カテゴリの価値と,大規模言語モデルの出現により大きな影響を与える低コスト圧縮アルゴリズムの望ましい特性について論じる。
論文 参考訳(メタデータ) (2024-01-27T08:38:56Z) - CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。