論文の概要: GEM-Style Constraints for PEFT with Dual Gradient Projection in LoRA
- arxiv url: http://arxiv.org/abs/2601.02500v1
- Date: Mon, 05 Jan 2026 19:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.698016
- Title: GEM-Style Constraints for PEFT with Dual Gradient Projection in LoRA
- Title(参考訳): LoRAにおけるデュアル勾配射影によるPEFTのGEM-Style Constraints
- Authors: Brian Tekmen, Jason Yin, Qianqian Tong,
- Abstract要約: ローランドアダプタ (LoRA) サブスペース内のグラディエント・エピソード・メモリ (GEM) を再検討する。
我々は,GEMの二次射影に対する固定予算,GPU抵抗2次射影勾配近似であるI-GEMを紹介する。
I-GEMはGEMのような安定性を保ち、平均投影オーバーヘッドを下げる。
- 参考スコア(独自算出の注目度): 0.4167459103689586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full fine-tuning of Large Language Models (LLMs) is computationally costly, motivating Continual Learning (CL) approaches that utilize parameter-efficient adapters. We revisit Gradient Episodic Memory (GEM) within the Low-Rank Adapter (LoRA) subspace and introduce I-GEM: a fixed-budget, GPU-resident dual projected-gradient approximation to GEM's quadratic projection. By constraining non-interference solely within the adapter parameters, I-GEM preserves GEM-like stability with orders-of-magnitude lower mean projection overhead. On a 3-task AG News split with induced domain drift, using GPT-2 (355M) and LoRA ($r=8$), I-GEM matches GEM's average accuracy (within $\sim\!0.04$ pts) and outperforms A-GEM by $\sim\!1.4$ pts. Crucially, it reduces projection time vs.\ GEM by a factor of $\sim\!10^3$. These results suggest that applying GEM constraints in the LoRA subspace is a practical pathway for continual learning at the LLM scale.
- Abstract(参考訳): LLM(Large Language Models)の完全な微調整は計算コストがかかり、パラメータ効率のよいアダプタを利用する継続学習(CL)アプローチを動機付けている。
我々は、ローランドアダプタ(LoRA)サブスペース内のグラディエント・エピソード・メモリ(GEM)を再検討し、GEMの二次射影に対する固定予算、GPU-レジデント・デュアル・プロジェクタント・グラディエント・プロジェクタンス・アロキシメーション(英語版))を導入している。
アダプタパラメータ内でのみ非干渉を制約することにより、I-GEMはGEMのような安定性を保ち、平均投影オーバーヘッドを小さくする。
GPT-2 (355M) と LoRA (r=8$) を用いて、誘導されたドメインドリフトで分割した3タスクAGニュースでは、I-GEM は GEM の平均精度($\sim\!
0.04$ pts)でA-GEMを$\sim\!
1.4ドル。
重要なのは、プロジェクション時間とプロジェクション時間を短縮することです。
GEMを$\sim\!
10^3$。
これらの結果から,LORA部分空間におけるGEM制約の適用は,LLMスケールでの連続学習の実践的経路であることが示唆された。
関連論文リスト
- GRIT -- Geometry-Aware PEFT with K-FACPreconditioning, Fisher-Guided Reprojection, andDynamic Rank Adaptation [4.748720471060117]
GRITは、LoRAパラメータ化を保存する曲率対応のLoRAプロシージャである。
トレーニング可能なパラメータを平均で46%削減しながら、LoRAとQLoRAにマッチまたは超越する。
GRITは強力なPEFT最適化器ベースラインよりも低いドリフトと更新vs保持フロンティアが得られる。
論文 参考訳(メタデータ) (2026-01-01T06:31:54Z) - OPLoRA: Orthogonal Projection LoRA Prevents Catastrophic Forgetting during Parameter-Efficient Fine-Tuning [19.425615290786386]
Low-Rank Adaptation (LoRA)は、大規模言語モデルの効率的な微調整を可能にする。
LoRAは、学習した更新が支配的な特異な方向に干渉するとき、破滅的な忘れ込みに苦しむ。
我々はこの干渉を防止するために直交射影LORAを提案する。
論文 参考訳(メタデータ) (2025-10-14T21:35:57Z) - LoRAFusion: Efficient LoRA Fine-Tuning for LLMs [7.13923757932177]
Low-Rank Adaptation (LoRA) はLarge Language Models (LLM) のためのPEFT (Efficient Fine-Tuning) メソッドの先駆けとなった。
LLMのための効率的なLoRA微調整システムであるLoRAFusionを紹介する。
LoRAFusionはMegatron-LMと比較して最大1.96times$(平均1.47times$)エンドツーエンドのスピードアップを達成し、mLoRAよりも最大1.46times$(平均1.29times$)改善する。
論文 参考訳(メタデータ) (2025-09-30T19:26:22Z) - Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures [53.51230405648361]
勾配EMの力学を考察し, テンソル分解を用いて幾何的景観を特徴付ける。
これは、m=2$という特別な場合を超えるEMや勾配EMに対する最初の大域収束と回復の結果である。
論文 参考訳(メタデータ) (2025-06-06T23:32:38Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models [8.481707805559589]
WeGeFT(Weight-Generative Fine-Tuning)は、トレーニング済みの重みから直接微調整重みを生成することを学習する新しい手法である。
この設計は、パラメータ、表現、計算、メモリの多面的効率を実現し、LoRAとその変種の性能を維持したり、超えたりしている。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。