論文の概要: OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2405.18380v1
- Date: Tue, 28 May 2024 17:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:20:57.805342
- Title: OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning
- Title(参考訳): OwLore: メモリ効率の良いLDMファインチューニングのための外周方向の層状サンプリング低ランク投影
- Authors: Pengxiang Li, Lu Yin, Xiaowei Gao, Shiwei Liu,
- Abstract要約: Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。
OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
- 参考スコア(独自算出の注目度): 18.102930806071978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancements in Large Language Models (LLMs) have revolutionized various natural language processing tasks. However, the substantial size of LLMs presents significant challenges in training or fine-tuning. While parameter-efficient approaches such as low-rank adaptation (LoRA) have gained popularity, they often compromise performance compared to full-rank fine-tuning. In this paper, we propose Outlier-weighed Layerwise Sampled Low-Rank Projection (OwLore), a new memory-efficient fine-tuning approach, inspired by the layerwise outlier distribution of LLMs, which dynamically samples pre-trained layers to fine-tune instead of adding additional adaptors. We first interpret the outlier phenomenon through the lens of Heavy-Tailed Self-Regularization theory (HT-SR), discovering that layers with more outliers tend to be more heavy-tailed and consequently better trained. Inspired by this finding, OwLore strategically assigns higher sampling probabilities to layers with more outliers to better leverage the knowledge stored in pre-trained LLMs. To further mitigate the memory demands of fine-tuning, we integrate gradient low-rank projection into our approach, which facilitates each layer to be efficiently trained in a low-rank manner. By incorporating the efficient characteristics of low-rank and optimal layerwise sampling, OwLore significantly improves the memory-performance trade-off in LLM pruning. Our extensive experiments across various architectures, including LLaMa2, LLaMa3, and Mistral, demonstrate that OwLore consistently outperforms baseline approaches, including full fine-tuning. Specifically, it achieves up to a 1.1% average accuracy gain on the Commonsense Reasoning benchmark, a 3.0% improvement on MMLU, and a notable 10% boost on MT-Bench, while being more memory efficient. OwLore allows us to fine-tune LLaMa2-7B with only 21GB of memory.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、様々な自然言語処理タスクに革命をもたらした。
しかし、LLMのかなりのサイズは、トレーニングや微調整において重大な課題を呈している。
低ランク適応(LoRA)のようなパラメータ効率のよいアプローチは人気があるが、フルランクの微調整に比べて性能を損なうことが多い。
本稿では,新しいメモリ効率の高い微細調整手法であるOutlier-weighed Layerwise Smpled Low-Rank Projection (OwLore)を提案する。
我々はまず、ヘビータイル自己正則化理論(HT-SR)のレンズを通して、外周現象を解釈し、より多くの外周を持つ層がより重くなり、結果としてより訓練される傾向があることを発見した。
この発見に触発されて、OwLoreは、事前訓練されたLLMに格納された知識をよりよく活用するために、より多くのアウトレーヤを持つ層に高いサンプリング確率を戦略的に割り当てた。
微調整のメモリ要求を緩和するため,我々は低ランクプロジェクションの勾配をアプローチに統合し,各層を低ランクで効率的に訓練する。
OwLoreは低ランク・最適層幅サンプリングの効率的な特性を取り入れることで,LLMプルーニングにおけるメモリ性能のトレードオフを大幅に改善する。
LLaMa2、LLaMa3、Mistralなど、さまざまなアーキテクチャにわたる大規模な実験では、OwLoreが完全な微調整を含むベースラインアプローチを一貫して上回っていることが示されています。
具体的には、Commonsense Reasoningベンチマークの平均精度が1.1%向上し、MMLUが3.0%改善され、MT-Benchが10%向上し、メモリ効率が向上した。
OwLoreを使えば、わずか21GBのメモリでLLaMa2-7Bを微調整できます。
関連論文リスト
- Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
大規模言語モデル(LLM)は大規模トレーニングにおいて重要な障害となっている。
ローランド適応(LoRA)はこの問題を軽減するために提案されている。
微調整作業におけるLoRAの層状特性について検討し、予期せぬが一貫した重みノルムの歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けた。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。