論文の概要: LoRA vs Full Fine-tuning: An Illusion of Equivalence
- arxiv url: http://arxiv.org/abs/2410.21228v2
- Date: Mon, 23 Jun 2025 04:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.096637
- Title: LoRA vs Full Fine-tuning: An Illusion of Equivalence
- Title(参考訳): LoRA vs. フルファインチューニング: 等価性のイラシオン
- Authors: Reece Shuttleworth, Jacob Andreas, Antonio Torralba, Pratyusha Sharma,
- Abstract要約: 我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。
特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。
我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
- 参考スコア(独自算出の注目度): 76.11938177294178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is a crucial paradigm for adapting pre-trained large language models to downstream tasks. Recently, methods like Low-Rank Adaptation (LoRA) have been shown to effectively fine-tune LLMs with an extreme reduction in trainable parameters. But, \emph{are their learned solutions really equivalent?} We study how LoRA and full-finetuning change pre-trained models by analyzing the model's weight matrices through the lens of their spectral properties. We find that LoRA and full fine-tuning yield weight matrices whose singular value decompositions exhibit very different structure: weight matrices trained with LoRA have new, high-ranking singular vectors, which we call \emph{intruder dimensions}, while those trained with full fine-tuning do not. Further, we extend the finding that LoRA forgets less than full fine-tuning and find its forgetting is vastly localized to the intruder dimension -- by causally intervening on the intruder dimensions by changing their associated singular values post-fine-tuning, we show that they cause forgetting. Moreover, scaling them down significantly improves modeling of the pre-training distribution with a minimal drop in downstream task performance. Given this, we should expect accumulating intruder dimensions to be harmful and lead to more forgetting. This will be amplified during continual learning because of sequentially fine-tuning, and we show that LoRA models do accumulate intruder dimensions here tend to perform worse in this setting, emphasizing the practicality of our findings.
- Abstract(参考訳): ファインチューニングは、トレーニング済みの大規模言語モデルを下流タスクに適応するための重要なパラダイムである。
近年、Low-Rank Adaptation (LoRA) のような手法は、訓練可能なパラメータを極端に減少させることなく、効果的に微調整 LLM を実現することが示されている。
しかし、学習したソリューションは本当に同等なのか?
} モデル重量行列をスペクトル特性のレンズを用いて解析することにより,LoRAとフルファインタニングが事前訓練されたモデルをどのように変化させるかを検討する。
LoRAで訓練された重み行列は、新しい高階特異ベクトルを持ち、これを 'emph{intruder dimensions' と呼ぶが、フル微み付けの訓練を受けた行列はそうではない。
さらに、LoRAは完全な微調整を忘れず、その忘れは侵入者次元に大きく局所化されているという発見を拡大し、関連する特異値を変化させて侵入者次元に因果的に介入することで、その忘れを引き起こすことを示す。
さらに、それらをスケールダウンすることで、ダウンストリームタスクのパフォーマンスが最小限に抑えられ、事前トレーニングされたディストリビューションのモデリングが大幅に改善される。
これを踏まえると、侵入者次元の蓄積は有害であり、より忘れ去られることを期待すべきである。
逐次微調整により、連続学習中にこれを増幅し、この環境ではLORAモデルが侵入者次元を蓄積する傾向を示し、本研究の実用性を強調している。
関連論文リスト
- Model merging with SVD to tie the Knots [24.071148543940346]
また,LoRAの微調整モデルの重み付けは,完全微調整モデルに比べてアライメントの程度が低いことを示す。
SVDを用いて、異なるLoRAモデルの重み付けを、既存のマージ手法を適用可能な整合空間に変換する。
本稿では,統合モデルが一般モデルであるかどうかを明示的に評価する新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:59:55Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Learning on LoRAs: GL-Equivariant Processing of Low-Rank Weight Spaces for Large Finetuned Models [38.197552424549514]
低ランク適応(LoRA)は、大規模な基礎モデルの微調整に革命をもたらした。
LoRAは、これらの低ランクウェイトを入力として利用する機械学習技術を適用する機会を提供する。
本稿では,LoRA重みが機械学習モデルへの入力として機能するパラダイムであるLoRA(Learning on LoRAs)の可能性を検討する。
論文 参考訳(メタデータ) (2024-10-05T15:52:47Z) - AutoLoRA: AutoGuidance Meets Low-Rank Adaptation for Diffusion Models [0.9514837871243403]
低ランク適応(LoRA)は条件付き生成拡散モデルに適用できる微調整技術である。
本稿では,LoRAアプローチを微調整した拡散モデルのための新しいガイダンス手法であるAutoLoRAを紹介する。
論文 参考訳(メタデータ) (2024-10-04T21:57:11Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。