論文の概要: LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.21289v1
- Date: Tue, 27 May 2025 14:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.733695
- Title: LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning
- Title(参考訳): LoFT:フル微調整可能な低ランク適応
- Authors: Nurbek Tastan, Stefanos Laskaridis, Martin Takac, Karthik Nandakumar, Samuel Horvath,
- Abstract要約: フル微調整のように振る舞う新しいローランク適応法であるLoFTを紹介する。
LoFTはモデルの内部のダイナミクスを、すべてのモデルの重みを更新するものと整合させる。
実験的に、このアプローチはアダプタベースのチューニングとフル微調整の間のパフォーマンスギャップを著しく狭める。
- 参考スコア(独自算出の注目度): 5.980897761790243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained models are commonly adapted to downstream tasks using parameter-efficient fine-tuning methods such as Low-Rank Adaptation (LoRA), which injects small trainable low-rank matrices instead of updating all weights. While LoRA dramatically reduces trainable parameters with little overhead, it can still underperform full fine-tuning in accuracy and often converges more slowly. We introduce LoFT, a novel low-rank adaptation method that behaves like full fine-tuning by aligning the optimizer's internal dynamics with those of updating all model weights. LoFT not only learns weight updates in a low-rank subspace (like LoRA) but also properly projects the optimizer's first and second moments (Adam's momentum and variance) into the same subspace, mirroring full-model updates. By aligning the low-rank update itself with the full update, LoFT eliminates the need for tuning extra hyperparameters, e.g., LoRA scaling factor $\alpha$. Empirically, this approach substantially narrows the performance gap between adapter-based tuning and full fine-tuning and consistently outperforms standard LoRA-style methods, all without increasing inference cost.
- Abstract(参考訳): 大規模な事前学習モデルは、低ランク適応 (LoRA) のようなパラメータ効率のよい微調整手法を用いて、全ての重みを更新する代わりに小さなトレーニング可能な低ランク行列を注入することで、下流タスクに適応する。
LoRAはトレーニング可能なパラメータをほとんどオーバーヘッドなく劇的に削減するが、精度で完全な微調整を過小評価し、しばしばよりゆっくりと収束させる。
モデル重みを全て更新する手法とオプティマイザの内部ダイナミクスを整合させることにより、完全な微調整のように振る舞う新しい低ランク適応法であるLoFTを導入する。
LoFTは低ランクのサブスペース(LoRAのような)でウェイトアップデートを学ぶだけでなく、オプティマイザの第1モーメントと第2モーメント(アダムの運動量と分散)を同じサブスペースに投影し、フルモデル更新を反映している。
低ランクの更新自体をフルアップデートに合わせることで、LoFTは余分なハイパーパラメータ(例えば、LoRAスケーリング係数$\alpha$)をチューニングする必要がなくなる。
実験的に、このアプローチはアダプタベースのチューニングとフル微調整の間のパフォーマンスギャップを大幅に狭め、推論コストを増大させることなく、標準のLoRAスタイルのメソッドを一貫して上回る。
関連論文リスト
- Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning [13.823795660384262]
低ランク部分空間内での完全な微調整を近似するLoRA Silver BulletあるいはLoRA-SBを提案する。
これらの結果から,低ランク部分空間において,性能を犠牲にすることなく完全な微調整をシミュレートできることが示唆された。
論文 参考訳(メタデータ) (2024-11-29T09:10:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前学習モデルは、しばしば最先端のパフォーマンスをもたらすが、全てのパラメータを更新する際に計算コストがかかる。
本稿では,軽量ニューラルネットワークを用いた非線形PEFT手法NEATを提案し,事前学習した重みの非線形変換を学習する。
理論解析により, NEATは等価な表現性を維持しつつ, LoRA よりも高い効率を達成することが示された。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information [3.6859322366469933]
ReLoRAやGaLoreのような手法は、低ランクのサブスペースを更新することでこの問題に対処しようとしている。
本稿では,LoRAのトレーニング可能なパラメータを代替パラメータに頻繁にスムーズに置き換える,パラメータ効率のトレーニング手法であるSwitchLoRAを紹介する。
論文 参考訳(メタデータ) (2024-06-03T05:40:34Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。