論文の概要: Data-freeWeight Compress and Denoise for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.16319v1
- Date: Mon, 26 Feb 2024 05:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:21:45.360851
- Title: Data-freeWeight Compress and Denoise for Large Language Models
- Title(参考訳): 大規模言語モデルに対するデータフリーウェイト圧縮とデノイズ
- Authors: Runyu Peng, Yunhua Zhou, Qipeng Guo, Yang Gao, Hang Yan, Xipeng Qiu,
Dahua Lin
- Abstract要約: パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
- 参考スコア(独自算出の注目度): 101.53420111286952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are reshaping the research landscape in
artificial intelligence, particularly as model parameters scale up
significantly, unlocking remarkable capabilities across various domains.
Nevertheless, the scalability of model parameters faces constraints due to
limitations in GPU memory and computational speed. To address these
constraints, various weight compression methods have emerged, such as Pruning
and Quantization. Given the low-rank nature of weight matrices in language
models, the reduction of weights through matrix decomposition undoubtedly holds
significant potential and promise. In this paper, drawing upon the intrinsic
structure of LLMs, we propose a novel approach termed Data-free Joint Rank-k
Approximation for compressing the parameter matrices. Significantly, our method
is characterized by without necessitating additional involvement of any corpus,
while simultaneously preserving orthogonality in conjunction with pruning and
quantization methods. We achieve a model pruning of 80% parameters while
retaining 93.43% of the original performance without any calibration data.
Additionally, we explore the fundamental properties of the weight matrix of
LLMs undergone Rank-k Approximation and conduct comprehensive experiments to
elucidate our hypothesis.
- Abstract(参考訳): 大規模言語モデル(llm)は、特にモデルパラメータが大幅に拡大し、さまざまな領域で注目すべき機能を解き放ちながら、人工知能の研究環境を再構築している。
それでも、GPUメモリと計算速度の制限により、モデルパラメータのスケーラビリティは制約に直面している。
これらの制約に対処するため、プルーニングや量子化など、様々な重み圧縮法が登場した。
言語モデルにおける重み行列の低ランク性を考えると、行列分解による重みの減少は間違いなく有意なポテンシャルと約束をもたらす。
本稿では, LLMの本質的な構造をベースとして, パラメータ行列を圧縮するデータフリー結合ランクk近似法を提案する。
本手法は, コーパスの付加的関与を必要とせず, プルーニング法と量子化法を併用して直交性を同時に保ちながら特徴付けられる。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
さらに, llms の重み行列の基本特性を rank-k 近似で検討し, 仮説を解明するための包括的実験を行った。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Uncertainty Quantification in Large Language Models Through Convex Hull Analysis [0.36832029288386137]
本研究では凸船体解析を用いた不確実性定量化のための新しい幾何学的手法を提案する。
提案手法は, 応答埋め込みの空間特性を利用して, モデル出力の分散と可変性を計測する。
論文 参考訳(メタデータ) (2024-06-28T07:47:34Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Bayesian multiscale deep generative model for the solution of
high-dimensional inverse problems [0.0]
深層確率的生成モデルに基づく新しいマルチスケールベイズ推論手法が導入された。
この方法は、安定性、効率、精度を示しながら、高次元パラメータ推定を可能にする。
論文 参考訳(メタデータ) (2021-02-04T11:47:21Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。