Fugu-MT 論文翻訳(概要): From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

論文の概要: From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

arxiv url: http://arxiv.org/abs/2407.11239v1
Date: Mon, 15 Jul 2024 21:05:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 19:11:45.573295
Title: From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients
Title（参考訳）: GaLoreからWeLoreへ:低ランク重量が低ランク勾配から不均一に出現する理由
Authors: Ajay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang,
Abstract要約: 現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。 WeLore(Weight Low-Rank Projection)を提案する。
参考スコア（独自算出の注目度）: 86.40635601953446
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern Large Language Models (LLMs) are composed of matrices with billions of elements, making their storage and processing quite demanding in terms of computational resources and memory usage. Being significantly large, such matrices can often be expressed in low-rank format with potential to relax resource requirements. Unlike prior works which focus on developing novel matrix decomposition algorithms, in this work we first study the emergence of low-rank structures across matrices within different layers of LLMs and establish a consequential relationship between the gradient dynamics and emerging low-rank expressiveness of matrices. Our findings reveal that different layers exhibit varying levels of converged low-rank structure, necessitating a non-uniform rank reduction across them to minimize performance drop due to compression. In view of that, we present Weight Low-Rank Projection (WeLore) that unifies weight compression and memory-efficient fine-tuning as ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail distribution of singular values to identify a suitable rank reduction ratio for matrices within LLMs. Going beyond only as a compression technique, WeLore categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank Components (N-LRCs) based on their ability to express themselves as low-rank. Our gradient perspective and extensive experiments illustrate that LRCs tend to have better finetuning capabilities and can closely mimic (sometimes outperform) the training loss trajectory and performance of full-finetuning with notable memory and compute footprint reduction. For example, finetuning a 50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs (WeLore) can outperform its full finetuning with ~3x better throughput and ~0.6x GPU requirement. Our codes are available at \url{https://github.com/VITA-Group/welore}
Abstract（参考訳）: 現代の大規模言語モデル(LLM)は数十億の要素を持つ行列で構成されており、計算資源やメモリ使用量の観点から、その記憶と処理がかなり要求される。非常に大きいため、そのような行列はリソース要求を緩和する可能性のある低ランクの形式で表されることが多い。新たな行列分解アルゴリズムの開発に焦点をあてた以前の研究とは異なり、本研究はまず、LLMの異なる層内の行列にまたがる低ランク構造の出現を研究し、勾配力学と行列の出現する低ランク表現性との間に連続的な関係を確立する。その結果,圧縮による性能低下を最小限に抑えるために,各層に異なる収束低ランク構造が出現し,不均一なランクの低減が必要であった。その観点から、重み圧縮とメモリ効率を One として統一するWeight Low-Rank Projection (WeLore) を、データに依存しないワンショット方式で提示する。 WeLore は特異値のヘビーテール分布を利用して LLM 内の行列に対する適切なランク低減比を同定する。 WeLoreは圧縮技術に留まらず、ウェイト行列を低ランク成分(LRC)と非低ランク成分(N-LRC)に分類する。我々の勾配の観点と広範な実験は、LCCはより優れた微調整能力を持ち、トレーニング損失の軌跡と、注目すべきメモリと計算フットプリントの削減によるフルファインタニングのパフォーマンスを(時にはより良く)正確に模倣できることを示している。例えば、50\%圧縮されたLLaMa-2 7BモデルをLRC(WeLore)のごく一部のパラメータで微調整すると、スループットが約3倍、GPUが約0.6倍向上する。私たちのコードは \url{https://github.com/VITA-Group/welore} で利用可能です。

関連論文リスト

QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition [4.119890956388359]
我々は,低ランク成分をアクティベーションに敏感な重みを捕捉する特定の役割に割り当てる,ODLRI(Outlier-Driven Low-Rank Initialization)を導入する。 Llama2 (7B, 13B, 70B)、Llama3-8B、Mistral-7Bの実験は、ODLRIが一貫してアクティベーション・アウェア・エラーを低減し、量子化スケールを最小化し、低ビット設定におけるパープレキシティとゼロショット精度を改善することを示した。
論文参考訳（メタデータ） (2025-06-02T09:15:13Z)
HASSLE-free: A unified Framework for Sparse plus Low-Rank Matrix Decomposition for LLMs [15.575498324678373]
有望な圧縮スキームは、基礎モデルの密度重みをスパースと低ランク行列の和に分解することである。本稿では,半構造化)スパースと低ランク行列分解のためのHASSLEフリーの統一フレームワークを設計する。
論文参考訳（メタデータ） (2025-02-02T20:23:32Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [28.70239743254508]
LLM圧縮のための最初の構造双対化法を1ビット未満の精度で提案する。バイナライズされたLLMの重みは、性能劣化を伴わずにランダムに反転することができる。本手法は他の圧縮バイナライズ手法よりも優れた性能を示しながら,メモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2024-08-03T15:07:44Z)
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文参考訳（メタデータ） (2024-07-11T08:42:58Z)
OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。 OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
論文参考訳（メタデータ） (2024-05-28T17:22:22Z)
Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。大型モデルの低ランク特性に関する実証的研究を行う。大規模言語モデルに適した低ランク圧縮手法を提案する。
論文参考訳（メタデータ） (2024-05-17T08:27:12Z)
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文参考訳（メタデータ） (2024-04-15T11:53:22Z)
Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
LoTR: Low Tensor Rank Weight Adaptation [47.4904143988667]
大規模言語モデル(LLM)のパラメータ効率向上のための新しいアプローチであるLoTRを導入する。 LoTRはテンソル分解の形でパラメータの勾配更新を表す。低ランクテンソル表現を持つ層列の同時圧縮により、LoTRはより優れたパラメータ効率をアーカイブできる。
論文参考訳（メタデータ） (2024-02-02T13:00:38Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot Compression [16.901290551711476]
低ランク分解(LoRD)による単言語コード生成のための大言語モデル(LLM)圧縮の可能性について検討する。次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。
論文参考訳（メタデータ） (2023-09-25T10:35:17Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)
Spectral Tensor Train Parameterization of Deep Learning Layers [136.4761580842396]
重み行列の低ランクパラメータ化をDeep Learningコンテキストに埋め込まれたスペクトル特性を用いて検討する。分類設定におけるニューラルネットワーク圧縮の効果と,生成的対角トレーニング設定における圧縮および安定性トレーニングの改善について述べる。
論文参考訳（メタデータ） (2021-03-07T00:15:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。