論文の概要: AltLoRA: Towards Better Gradient Approximation in Low-Rank Adaptation with Alternating Projections
- arxiv url: http://arxiv.org/abs/2505.12455v1
- Date: Sun, 18 May 2025 15:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.246106
- Title: AltLoRA: Towards Better Gradient Approximation in Low-Rank Adaptation with Alternating Projections
- Title(参考訳): AltLoRA: 代替射影を用いた低ランク適応における勾配近似の改善を目指して
- Authors: Xin Yu, Yujia Wang, Jinghui Chen, Lingzhou Xue,
- Abstract要約: Low-Rank Adaptation (LoRA) は、微調整された大規模言語モデルにおいて、メモリオーバーヘッドを低減する効果的な手法として登場した。
低ランク空間で更新が制限されているため、完全な微調整に比べて、しばしば準最適パフォーマンスに悩まされる。
共同更新設計による勾配近似の難しさを回避するための交互投影法AltLoRAを提案する。
- 参考スコア(独自算出の注目度): 33.897537326268356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) has emerged as an effective technique for reducing memory overhead in fine-tuning large language models. However, it often suffers from sub-optimal performance compared with full fine-tuning since the update is constrained in the low-rank space. Recent variants such as LoRA-Pro attempt to mitigate this by adjusting the gradients of the low-rank matrices to approximate the full gradient. However, LoRA-Pro's solution is not unique, and different solutions can lead to significantly varying performance in ablation studies. Besides, to incorporate momentum or adaptive optimization design, approaches like LoRA-Pro must first compute the equivalent gradient, causing a higher memory cost close to full fine-tuning. A key challenge remains in integrating momentum properly into the low-rank space with lower memory cost. In this work, we propose AltLoRA, an alternating projection method that avoids the difficulties in gradient approximation brought by the joint update design, meanwhile integrating momentum without higher memory complexity. Our theoretical analysis provides convergence guarantees and further shows that AltLoRA enables stable feature learning and robustness to transformation invariance. Extensive experiments across multiple tasks demonstrate that AltLoRA outperforms LoRA and its variants, narrowing the gap toward full fine-tuning while preserving superior memory efficiency.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は、微調整された大規模言語モデルにおいて、メモリオーバーヘッドを低減する効果的な手法として登場した。
しかし、更新が低ランク空間で制限されているため、完全な微調整に比べて、しばしば準最適性能に悩まされる。
LoRA-Proのような最近の変種は、全勾配を近似するために低ランク行列の勾配を調整することによってこれを緩和しようとする。
しかし、LoRA-Proの解はユニークではなく、異なる解はアブレーション研究において著しく異なる性能をもたらす可能性がある。
加えて、運動量や適応最適化設計を取り入れるためには、LoRA-Proのようなアプローチはまず等価な勾配を計算しなければなりません。
重要な課題は、メモリコストの低い低ランク空間に運動量を統合することである。
本研究では,共同更新設計による勾配近似の困難を回避し,メモリの複雑さを増すことなく運動量を統合する交互投影法AltLoRAを提案する。
我々の理論解析は収束保証を提供し、AltLoRAが安定な特徴学習と変換不変性の実現を可能にすることを示す。
複数のタスクにわたる大規模な実験により、AltLoRAはLoRAとその変種より優れており、優れたメモリ効率を維持しながら完全な微調整へのギャップを狭めていることが示された。
関連論文リスト
- BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning [13.823795660384262]
低ランク部分空間内での完全な微調整を近似するLoRA Silver BulletあるいはLoRA-SBを提案する。
これらの結果から,低ランク部分空間において,性能を犠牲にすることなく完全な微調整をシミュレートできることが示唆された。
論文 参考訳(メタデータ) (2024-11-29T09:10:30Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。