論文の概要: OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2405.18380v2
- Date: Sat, 12 Oct 2024 04:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:47.960209
- Title: OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning
- Title(参考訳): OwLore: メモリ効率の良いLDMファインチューニングのための外周方向の層状サンプリング低ランク投影
- Authors: Pengxiang Li, Lu Yin, Xiaowei Gao, Shiwei Liu,
- Abstract要約: Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。
OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
- 参考スコア(独自算出の注目度): 18.102930806071978
- License:
- Abstract: The rapid advancements in Large Language Models (LLMs) have revolutionized various natural language processing tasks. However, the substantial size of LLMs presents significant challenges in training or fine-tuning. While parameter-efficient approaches such as low-rank adaptation (LoRA) have gained popularity, they often compromise performance compared to full-rank fine-tuning. In this paper, we propose Outlier-weighed Layerwise Sampled Low-Rank Projection (OwLore), a new memory-efficient fine-tuning approach, inspired by the layerwise outlier distribution of LLMs. Unlike LoRA, which adds extra adapters to all layers, OwLore strategically assigns higher sampling probabilities to layers with more outliers, selectively sampling only a few layers and fine-tuning their pre-trained weights. To further increase the number of fine-tuned layers without a proportional rise in memory costs, we incorporate gradient low-rank projection, further boosting the approach's performance. Our extensive experiments across various architectures, including LLaMa2, LLaMa3, and Mistral, demonstrate that OwLore consistently outperforms baseline approaches, including full fine-tuning. Specifically, it achieves up to a 1.1% average accuracy gain on the Commonsense Reasoning benchmark, a 3.0% improvement on MMLU, and a notable 10% boost on MT-Bench, while being more memory efficient. OwLore allows us to fine-tune LLaMa2-7B with only 21GB of memory. Code is available at https://github.com/pixeli99/OwLore.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、様々な自然言語処理タスクに革命をもたらした。
しかし、LLMのかなりのサイズは、トレーニングや微調整において重大な課題を呈している。
低ランク適応(LoRA)のようなパラメータ効率のよいアプローチは人気があるが、フルランクの微調整に比べて性能を損なうことが多い。
本稿では,LLMの層状外周分布にインスパイアされた,メモリ効率の高い新しい微調整手法であるOutlier-weighed Layerwise Smpled Low-Rank Projection (OwLore)を提案する。
すべての層に追加のアダプタを追加するLoRAとは異なり、OwLoreは、より多くのアウトリーチを持つ層に高いサンプリング確率を割り当て、いくつかの層だけを選択的にサンプリングし、トレーニング済みの重みを微調整する。
メモリコストの比例的な上昇を伴わない微調整層数をさらに増やすため、勾配低ランクプロジェクションを導入し、アプローチの性能をさらに向上させる。
LLaMa2、LLaMa3、Mistralなど、さまざまなアーキテクチャにわたる大規模な実験では、OwLoreが完全な微調整を含むベースラインアプローチを一貫して上回っていることが示されています。
具体的には、Commonsense Reasoningベンチマークの平均精度が1.1%向上し、MMLUが3.0%改善され、MT-Benchが10%向上し、メモリ効率が向上した。
OwLoreを使えば、わずか21GBのメモリでLLaMa2-7Bを微調整できます。
コードはhttps://github.com/pixeli99/OwLore.comで入手できる。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning [1.3597551064547502]
GaLoreは、よりメモリ効率の良いフル教師付き学習を可能にする。
本研究はNatural GaLoreを導入し,低ランク勾配に対する逆経験的漁業情報行列を効率的に適用する。
論文 参考訳(メタデータ) (2024-10-21T14:05:06Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
大規模言語モデル(LLM)は大規模トレーニングにおいて重要な障害となっている。
ローランド適応(LoRA)はこの問題を軽減するために提案されている。
微調整作業におけるLoRAの層状特性について検討し、予期せぬが一貫した重みノルムの歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けた。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。