Fugu-MT 論文翻訳(概要): OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning

論文の概要: OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning

arxiv url: http://arxiv.org/abs/2405.18380v2
Date: Sat, 12 Oct 2024 04:35:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 22:23:34.154108
Title: OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning
Title（参考訳）: OwLore: メモリ効率の良いLDMファインチューニングのための外周方向の層状サンプリング低ランク投影
Authors: Pengxiang Li, Lu Yin, Xiaowei Gao, Shiwei Liu,
Abstract要約: Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。 OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
参考スコア（独自算出の注目度）: 18.102930806071978
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancements in Large Language Models (LLMs) have revolutionized various natural language processing tasks. However, the substantial size of LLMs presents significant challenges in training or fine-tuning. While parameter-efficient approaches such as low-rank adaptation (LoRA) have gained popularity, they often compromise performance compared to full-rank fine-tuning. In this paper, we propose Outlier-weighed Layerwise Sampled Low-Rank Projection (OwLore), a new memory-efficient fine-tuning approach, inspired by the layerwise outlier distribution of LLMs. Unlike LoRA, which adds extra adapters to all layers, OwLore strategically assigns higher sampling probabilities to layers with more outliers, selectively sampling only a few layers and fine-tuning their pre-trained weights. To further increase the number of fine-tuned layers without a proportional rise in memory costs, we incorporate gradient low-rank projection, further boosting the approach's performance. Our extensive experiments across various architectures, including LLaMa2, LLaMa3, and Mistral, demonstrate that OwLore consistently outperforms baseline approaches, including full fine-tuning. Specifically, it achieves up to a 1.1% average accuracy gain on the Commonsense Reasoning benchmark, a 3.0% improvement on MMLU, and a notable 10% boost on MT-Bench, while being more memory efficient. OwLore allows us to fine-tune LLaMa2-7B with only 21GB of memory. Code is available at https://github.com/pixeli99/OwLore.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩は、様々な自然言語処理タスクに革命をもたらした。しかし、LLMのかなりのサイズは、トレーニングや微調整において重大な課題を呈している。低ランク適応(LoRA)のようなパラメータ効率のよいアプローチは人気があるが、フルランクの微調整に比べて性能を損なうことが多い。本稿では,LLMの層状外周分布にインスパイアされた,メモリ効率の高い新しい微調整手法であるOutlier-weighed Layerwise Smpled Low-Rank Projection (OwLore)を提案する。すべての層に追加のアダプタを追加するLoRAとは異なり、OwLoreは、より多くのアウトリーチを持つ層に高いサンプリング確率を割り当て、いくつかの層だけを選択的にサンプリングし、トレーニング済みの重みを微調整する。メモリコストの比例的な上昇を伴わない微調整層数をさらに増やすため、勾配低ランクプロジェクションを導入し、アプローチの性能をさらに向上させる。 LLaMa2、LLaMa3、Mistralなど、さまざまなアーキテクチャにわたる大規模な実験では、OwLoreが完全な微調整を含むベースラインアプローチを一貫して上回っていることが示されています。具体的には、Commonsense Reasoningベンチマークの平均精度が1.1%向上し、MMLUが3.0%改善され、MT-Benchが10%向上し、メモリ効率が向上した。 OwLoreを使えば、わずか21GBのメモリでLLaMa2-7Bを微調整できます。コードはhttps://github.com/pixeli99/OwLore.comで入手できる。

関連論文リスト

Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution [37.437830302067326]
Sparsity Evolution Fine-Tuning (SEFT)は、疎大言語モデル(LLM)に特化して設計された新しい手法である。 SEFTは、微調整中に細粒化されたモデルのスパーストポロジーを動的に進化させ、プロセス全体にわたって全体空間を保存する。各種LLM実験の結果,SEFTは既存のベースラインに比べてメモリ効率と時間効率が優れており,性能が向上することが示された。
論文参考訳（メタデータ） (2025-05-29T22:17:43Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文参考訳（メタデータ） (2024-11-23T13:31:16Z)
Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。 Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文参考訳（メタデータ） (2024-10-25T17:07:13Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。 WeLore(Weight Low-Rank Projection)を提案する。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
大規模言語モデル(LLM)は大規模トレーニングにおいて重要な障害となっている。ローランド適応(LoRA)はこの問題を軽減するために提案されている。微調整作業におけるLoRAの層状特性について検討し、予期せぬが一貫した重みノルムの歪さを観察する。私たちはLayerwise Importance Sampled AdamW (LISA)と名付けた。
論文参考訳（メタデータ） (2024-03-26T17:55:02Z)
Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文参考訳（メタデータ） (2024-03-04T16:23:58Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。