論文の概要: From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients
- arxiv url: http://arxiv.org/abs/2407.11239v1
- Date: Mon, 15 Jul 2024 21:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:11:45.573295
- Title: From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients
- Title(参考訳): GaLoreからWeLoreへ:低ランク重量が低ランク勾配から不均一に出現する理由
- Authors: Ajay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang,
- Abstract要約: 現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
- 参考スコア(独自算出の注目度): 86.40635601953446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Large Language Models (LLMs) are composed of matrices with billions of elements, making their storage and processing quite demanding in terms of computational resources and memory usage. Being significantly large, such matrices can often be expressed in low-rank format with potential to relax resource requirements. Unlike prior works which focus on developing novel matrix decomposition algorithms, in this work we first study the emergence of low-rank structures across matrices within different layers of LLMs and establish a consequential relationship between the gradient dynamics and emerging low-rank expressiveness of matrices. Our findings reveal that different layers exhibit varying levels of converged low-rank structure, necessitating a non-uniform rank reduction across them to minimize performance drop due to compression. In view of that, we present Weight Low-Rank Projection (WeLore) that unifies weight compression and memory-efficient fine-tuning as ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail distribution of singular values to identify a suitable rank reduction ratio for matrices within LLMs. Going beyond only as a compression technique, WeLore categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank Components (N-LRCs) based on their ability to express themselves as low-rank. Our gradient perspective and extensive experiments illustrate that LRCs tend to have better finetuning capabilities and can closely mimic (sometimes outperform) the training loss trajectory and performance of full-finetuning with notable memory and compute footprint reduction. For example, finetuning a 50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs (WeLore) can outperform its full finetuning with ~3x better throughput and ~0.6x GPU requirement. Our codes are available at \url{https://github.com/VITA-Group/welore}
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は数十億の要素を持つ行列で構成されており、計算資源やメモリ使用量の観点から、その記憶と処理がかなり要求される。
非常に大きいため、そのような行列はリソース要求を緩和する可能性のある低ランクの形式で表されることが多い。
新たな行列分解アルゴリズムの開発に焦点をあてた以前の研究とは異なり、本研究はまず、LLMの異なる層内の行列にまたがる低ランク構造の出現を研究し、勾配力学と行列の出現する低ランク表現性との間に連続的な関係を確立する。
その結果,圧縮による性能低下を最小限に抑えるために,各層に異なる収束低ランク構造が出現し,不均一なランクの低減が必要であった。
その観点から、重み圧縮とメモリ効率を One として統一するWeight Low-Rank Projection (WeLore) を、データに依存しないワンショット方式で提示する。
WeLore は特異値のヘビーテール分布を利用して LLM 内の行列に対する適切なランク低減比を同定する。
WeLoreは圧縮技術に留まらず、ウェイト行列を低ランク成分(LRC)と非低ランク成分(N-LRC)に分類する。
我々の勾配の観点と広範な実験は、LCCはより優れた微調整能力を持ち、トレーニング損失の軌跡と、注目すべきメモリと計算フットプリントの削減によるフルファインタニングのパフォーマンスを(時にはより良く)正確に模倣できることを示している。
例えば、50\%圧縮されたLLaMa-2 7BモデルをLRC(WeLore)のごく一部のパラメータで微調整すると、スループットが約3倍、GPUが約0.6倍向上する。
私たちのコードは \url{https://github.com/VITA-Group/welore} で利用可能です。
関連論文リスト
- Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。
OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-28T17:22:22Z) - Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。
本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。
低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文 参考訳(メタデータ) (2024-04-15T11:53:22Z) - LoTR: Low Tensor Rank Weight Adaptation [47.4904143988667]
大規模言語モデル(LLM)のパラメータ効率向上のための新しいアプローチであるLoTRを導入する。
LoTRはテンソル分解の形でパラメータの勾配更新を表す。
低ランクテンソル表現を持つ層列の同時圧縮により、LoTRはより優れたパラメータ効率をアーカイブできる。
論文 参考訳(メタデータ) (2024-02-02T13:00:38Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot
Compression [16.901290551711476]
低ランク分解(LoRD)による単言語コード生成のための大言語モデル(LLM)圧縮の可能性について検討する。
次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。
論文 参考訳(メタデータ) (2023-09-25T10:35:17Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。