Fugu-MT 論文翻訳(概要): LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning

論文の概要: LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning

arxiv url: http://arxiv.org/abs/2403.17919v2
Date: Thu, 28 Mar 2024 15:44:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 10:49:40.386090
Title: LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning
Title（参考訳）: LISA: メモリ効率の良い大規模言語モデルファインチューニングのための階層的重要度サンプリング
Authors: Rui Pan, Xiang Liu, Shizhe Diao, Renjie Pi, Jipeng Zhang, Chi Han, Tong Zhang,
Abstract要約: 微調整作業におけるローランド適応 (LoRA) の層間特性について検討し, 異なる層にまたがる重みノルムの非一般的な歪さを観察する。私たちはLayerwise Importance Sampled AdamW (LISA)と名付けました。
参考スコア（独自算出の注目度）: 31.088229461632206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The machine learning community has witnessed impressive advancements since the first appearance of large language models (LLMs), yet their huge memory consumption has become a major roadblock to large-scale training. Parameter Efficient Fine-Tuning techniques such as Low-Rank Adaptation (LoRA) have been proposed to alleviate this problem, but their performance still fails to match full parameter training in most large-scale fine-tuning settings. Attempting to complement this deficiency, we investigate layerwise properties of LoRA on fine-tuning tasks and observe an uncommon skewness of weight norms across different layers. Utilizing this key observation, a surprisingly simple training strategy is discovered, which outperforms both LoRA and full parameter training in a wide range of settings with memory costs as low as LoRA. We name it Layerwise Importance Sampled AdamW (LISA), a promising alternative for LoRA, which applies the idea of importance sampling to different layers in LLMs and randomly freeze most middle layers during optimization. Experimental results show that with similar or less GPU memory consumption, LISA surpasses LoRA or even full parameter tuning in downstream fine-tuning tasks, where LISA consistently outperforms LoRA by over $11\%$-$37\%$ in terms of MT-Bench scores. On large models, specifically LLaMA-2-70B, LISA achieves on-par or better performance than LoRA on MT-Bench, GSM8K, and PubMedQA, demonstrating its effectiveness across different domains.
Abstract（参考訳）: 機械学習コミュニティは、大規模言語モデル(LLM)の最初の登場以来、目覚ましい進歩を遂げてきたが、その膨大なメモリ消費は、大規模なトレーニングの大きな障害となっている。低ランク適応(LoRA)のようなパラメータ効率の良いファインチューニング技術がこの問題を軽減するために提案されているが、ほとんどの大規模ファインチューニング環境では、その性能は完全なパラメータトレーニングと一致しない。この欠陥を補うために, 微調整作業におけるLoRAの層状特性を調査し, 異なる層にまたがる重みノルムの非一般的な歪さを観察する。この重要な観察を利用して、驚くほど単純なトレーニング戦略が発見され、LoRAと完全なパラメータトレーニングの両方を、LoRAよりも低いメモリコストで幅広い設定で上回る。我々は、LRAの有望な代替案であるLayerwise Importance Sampled AdamW (LISA) と命名し、LLMの異なるレイヤに重要サンプリングのアイデアを適用し、最適化中にほとんどのミドルレイヤをランダムに凍結する。実験結果から、LISAは、GPUメモリ使用量に類似または少なすぎると、下流の微調整タスクにおいてLoRAや完全なパラメータチューニングよりも優れており、MT-Benchスコアの点では、LISAは一貫してLoRAよりも111\%$-37\%$以上のパフォーマンスを示している。大型モデル、特にLLaMA-2-70Bでは、LISAはMT-Bench、GSM8K、PubMedQAのLoRAよりも高い性能を達成し、様々な領域でその効果を実証している。

関連論文リスト

Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。ローランクプロジェクションによる完全なトレーニング(SVDLoRA)とLoRAファインチューニングの間にはまだギャップがあり、LoRAのステップをさらに改善できることを示している。
論文参考訳（メタデータ） (2025-09-24T10:32:50Z)
Exploring Efficient Learning of Small BERT Networks with LoRA and DoRA [1.492929866765164]
Low-Rank Adaptation (LoRA) と Weight-Decomposed Low-Rank Adaptation (DoRA) は、微調整の計算問題に対する高効率で高性能な解法である。より小規模な言語モデルに適用した場合に,LoRA と DoRA の効率と性能をベンチマークすることで,オリジナルの LoRA と DoRA の論文を拡張したいと考えている。この結果から,LoRAとDoRAの最適設定と自動混合精度(AMP)が相まって,性能を損なうことなくトレーニング効率を著しく向上することがわかった。
論文参考訳（メタデータ） (2025-08-25T01:14:44Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文参考訳（メタデータ） (2025-01-22T20:00:41Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。 Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文参考訳（メタデータ） (2024-10-25T17:07:13Z)
LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文参考訳（メタデータ） (2024-07-25T17:57:12Z)
ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation [4.07532985236519]
本研究では,共有低ランク適応(ShareLoRA)を実装することにより,事前学習言語モデル(PLM)に対するPEFT(Efficient Fine Tuning)の最適化手法を提案する。異なるレイヤにShareLoRAを戦略的にデプロイし、それを自己アテンションレイヤのクエリ、キー、バリューコンポーネントに適用することにより、トレーニングパラメータの数とメモリ使用量を大幅に削減します。この結果から、ShareLoRAはパラメータ効率を効果的に向上し、異なる言語モデルアーキテクチャにおけるスケーラブルで高品質な性能を確保します。
論文参考訳（メタデータ） (2024-06-16T02:52:28Z)
OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。 OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
論文参考訳（メタデータ） (2024-05-28T17:22:22Z)
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters [11.23006032094776]
トレーニング可能なパラメータを格段に削減し,優れた性能と競争性能を示すLoRA-XSを提案する。 LoRA-XSは、LoRAと比較して、トレーニング可能なパラメータを7Bモデルで100倍以上削減する。
論文参考訳（メタデータ） (2024-05-27T19:07:13Z)
MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文参考訳（メタデータ） (2024-02-27T07:14:12Z)
MoELoRA: Contrastive Learning Guided Mixture of Experts on Parameter-Efficient Fine-Tuning for Large Language Models [24.17147521556083]
本稿では,新しいPEFT手法であるMoELoRAを紹介する。数学推論と常識推論のベンチマークにおいて,11のタスクについて実験を行った。 MoELoRAはLoRAよりも4.2%高い平均性能を達成し、いくつかのベンチマークで175B GPT-3.5と比較して競争性能を示した。
論文参考訳（メタデータ） (2024-02-20T09:30:48Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。