Fugu-MT 論文翻訳(概要): LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation

論文の概要: LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation

arxiv url: http://arxiv.org/abs/2306.11222v2
Date: Mon, 26 Jun 2023 15:34:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 20:06:53.617368
Title: LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation
Title（参考訳）: LoSparse:低ランクおよびスパース近似に基づく大規模言語モデルの構造化圧縮
Authors: Yixiao Li, Yifan Yu, Qingru Zhang, Chen Liang, Pengcheng He, Weizhu Chen, Tuo Zhao
Abstract要約: トランスフォーマーモデルは、様々な自然言語タスクにおいて顕著な成果を上げてきたが、しばしば禁止的に大きい。低ランク行列とスパース行列の和で重み行列を近似する新しいモデル圧縮手法であるLoSparseを提案する。既存の圧縮手法よりも大幅に優れていることを示す。
参考スコア（独自算出の注目度）: 63.04361850630079
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer models have achieved remarkable results in various natural language tasks, but they are often prohibitively large, requiring massive memories and computational resources. To reduce the size and complexity of these models, we propose LoSparse (Low-Rank and Sparse approximation), a novel model compression technique that approximates a weight matrix by the sum of a low-rank matrix and a sparse matrix. Our method combines the advantages of both low-rank approximations and pruning, while avoiding their limitations. Low-rank approximation compresses the coherent and expressive parts in neurons, while pruning removes the incoherent and non-expressive parts in neurons. Pruning enhances the diversity of low-rank approximations, and low-rank approximation prevents pruning from losing too many expressive neurons. We evaluate our method on natural language understanding, question answering, and natural language generation tasks. We show that it significantly outperforms existing compression methods.
Abstract（参考訳）: トランスフォーマーモデルは、様々な自然言語タスクで顕著な結果を得たが、しばしば非常に大きく、膨大な記憶と計算資源を必要とする。これらのモデルのサイズと複雑さを小さくするために、低ランク行列とスパース行列の和で重み行列を近似する新しいモデル圧縮手法であるロスパース(低ランクおよびスパース近似)を提案する。本手法は,低位近似とプルーニングの利点を併せ持つとともに,その限界を回避できる。低位近似はニューロンのコヒーレントと発現の部分を圧縮し、プルーニングはニューロンの非コヒーレントと非発現の部分を除去する。プルーニングは低位近似の多様性を高め、低位近似はプルーニングが過剰な発現ニューロンを失うことを防ぐ。本手法は,自然言語理解,質問応答,自然言語生成タスクについて評価する。既存の圧縮方法を大幅に上回っていることを示す。

関連論文リスト

COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning [5.595343998068235]
CoSpaDiは、低ランクの分解をより柔軟な構造化されたスパース分解に置き換える、トレーニング不要の圧縮フレームワークである。複数のLlamaモデルとQwenモデルにまたがるCoSpaDiを,20～50%の圧縮比で層間および群間設定で評価した。
論文参考訳（メタデータ） (2025-09-26T08:55:09Z)
Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models [1.6385815610837167]
本稿では,任意の低ランク表現のコンパクトな形式を教師なしで学習する,新しい低ランク表現であるPivoting Factorization(PIFA)を提案する。低ランクプルーニングによる性能劣化を軽減するため,リトレーニング不要な新しい低ランク再構築手法を提案する。 MPIFAは、既存の低ランクプルーニング法を著しく上回り、半構造化プルーニングに匹敵する性能を初めて達成した。
論文参考訳（メタデータ） (2025-01-31T12:36:31Z)
Differential error feedback for communication-efficient decentralized learning [48.924131251745266]
本稿では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。その結果,平均二乗誤差と平均ビットレートの両面において通信効率が安定であることが示唆された。その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
論文参考訳（メタデータ） (2024-06-26T15:11:26Z)
Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。大型モデルの低ランク特性に関する実証的研究を行う。大規模言語モデルに適した低ランク圧縮手法を提案する。
論文参考訳（メタデータ） (2024-05-17T08:27:12Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
A Comprehensive Survey of Compression Algorithms for Language Models [10.21587168771851]
我々は,プルーニング,量子化,知識蒸留,低ランク近似,パラメータ共有,効率的なアーキテクチャ設計など,多様な圧縮アルゴリズムを調査し,要約する。本稿では,圧縮アルゴリズムの各カテゴリの価値と,大規模言語モデルの出現により大きな影響を与える低コスト圧縮アルゴリズムの望ましい特性について論じる。
論文参考訳（メタデータ） (2024-01-27T08:38:56Z)
CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。我々の手法は万能であり、他の圧縮技術で実装することができる。ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文参考訳（メタデータ） (2024-01-25T11:45:21Z)
A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文参考訳（メタデータ） (2023-12-06T20:58:07Z)
What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文参考訳（メタデータ） (2022-05-22T13:54:44Z)
Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文参考訳（メタデータ） (2020-03-18T13:07:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。