Fugu-MT 論文翻訳(概要): Data-freeWeight Compress and Denoise for Large Language Models

論文の概要: Data-freeWeight Compress and Denoise for Large Language Models

arxiv url: http://arxiv.org/abs/2402.16319v1
Date: Mon, 26 Feb 2024 05:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 14:21:45.360851
Title: Data-freeWeight Compress and Denoise for Large Language Models
Title（参考訳）: 大規模言語モデルに対するデータフリーウェイト圧縮とデノイズ
Authors: Runyu Peng, Yunhua Zhou, Qipeng Guo, Yang Gao, Hang Yan, Xipeng Qiu, Dahua Lin
Abstract要約: パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
参考スコア（独自算出の注目度）: 101.53420111286952
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are reshaping the research landscape in artificial intelligence, particularly as model parameters scale up significantly, unlocking remarkable capabilities across various domains. Nevertheless, the scalability of model parameters faces constraints due to limitations in GPU memory and computational speed. To address these constraints, various weight compression methods have emerged, such as Pruning and Quantization. Given the low-rank nature of weight matrices in language models, the reduction of weights through matrix decomposition undoubtedly holds significant potential and promise. In this paper, drawing upon the intrinsic structure of LLMs, we propose a novel approach termed Data-free Joint Rank-k Approximation for compressing the parameter matrices. Significantly, our method is characterized by without necessitating additional involvement of any corpus, while simultaneously preserving orthogonality in conjunction with pruning and quantization methods. We achieve a model pruning of 80% parameters while retaining 93.43% of the original performance without any calibration data. Additionally, we explore the fundamental properties of the weight matrix of LLMs undergone Rank-k Approximation and conduct comprehensive experiments to elucidate our hypothesis.
Abstract（参考訳）: 大規模言語モデル(llm)は、特にモデルパラメータが大幅に拡大し、さまざまな領域で注目すべき機能を解き放ちながら、人工知能の研究環境を再構築している。それでも、GPUメモリと計算速度の制限により、モデルパラメータのスケーラビリティは制約に直面している。これらの制約に対処するため、プルーニングや量子化など、様々な重み圧縮法が登場した。言語モデルにおける重み行列の低ランク性を考えると、行列分解による重みの減少は間違いなく有意なポテンシャルと約束をもたらす。本稿では, LLMの本質的な構造をベースとして, パラメータ行列を圧縮するデータフリー結合ランクk近似法を提案する。本手法は, コーパスの付加的関与を必要とせず, プルーニング法と量子化法を併用して直交性を同時に保ちながら特徴付けられる。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。さらに, llms の重み行列の基本特性を rank-k 近似で検討し, 仮説を解明するための包括的実験を行った。

関連論文リスト

Weight-Parameterization in Continuous Time Deep Neural Networks for Surrogate Modeling [1.629803445577911]
ニューラル常微分方程式(ODE)のような連続時間深層学習モデルは、複雑な物理系のサロゲートモデリングのための有望なフレームワークを提供する。これらのモデルのトレーニングにおける中心的な課題は、特に計算上の制約の下で、安定した時間変化の重みを学習することにある。本研究では,重みの時間的発展を基底関数で表される低次元部分空間に制約する重みパラメータ化戦略について検討する。
論文参考訳（メタデータ） (2025-07-29T17:49:43Z)
Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文参考訳（メタデータ） (2025-04-01T14:36:45Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Uncertainty Quantification in Large Language Models Through Convex Hull Analysis [0.36832029288386137]
本研究では凸船体解析を用いた不確実性定量化のための新しい幾何学的手法を提案する。提案手法は, 応答埋め込みの空間特性を利用して, モデル出力の分散と可変性を計測する。
論文参考訳（メタデータ） (2024-06-28T07:47:34Z)
Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文参考訳（メタデータ） (2024-06-06T14:29:49Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Bayesian multiscale deep generative model for the solution of high-dimensional inverse problems [0.0]
深層確率的生成モデルに基づく新しいマルチスケールベイズ推論手法が導入された。この方法は、安定性、効率、精度を示しながら、高次元パラメータ推定を可能にする。
論文参考訳（メタデータ） (2021-02-04T11:47:21Z)
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文参考訳（メタデータ） (2020-12-22T07:42:30Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。