論文の概要: LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.12394v1
- Date: Sat, 14 Jun 2025 08:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.089149
- Title: LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning
- Title(参考訳): LARGO:ロバストパラメータ効率的なファインチューニングのための低ランク制御勾配投影
- Authors: Haotian Zhang, Liu Liu, Baosheng Yu, Jiayan Qiu, Yanwei Ren, Xianglong Liu,
- Abstract要約: Low-rAnk Regulated Gradient Projection (LARGO)アルゴリズムは、動的制約を低ランク適応法に統合する。
LARGOは、ドメイン内および配布外のシナリオで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 39.56217775141507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of parameter-efficient fine-tuning methods has significantly reduced the computational burden of adapting large-scale pretrained models to diverse downstream tasks. However, existing approaches often struggle to achieve robust performance under domain shifts while maintaining computational efficiency. To address this challenge, we propose Low-rAnk Regulated Gradient Projection (LARGO) algorithm that integrates dynamic constraints into low-rank adaptation methods. Specifically, LARGO incorporates parallel trainable gradient projections to dynamically regulate layer-wise updates, retaining the Out-Of-Distribution robustness of pretrained model while preserving inter-layer independence. Additionally, it ensures computational efficiency by mitigating the influence of gradient dependencies across layers during weight updates. Besides, through leveraging singular value decomposition of pretrained weights for structured initialization, we incorporate an SVD-based initialization strategy that minimizing deviation from pretrained knowledge. Through extensive experiments on diverse benchmarks, LARGO achieves state-of-the-art performance across in-domain and out-of-distribution scenarios, demonstrating improved robustness under domain shifts with significantly lower computational overhead compared to existing PEFT methods. The source code will be released soon.
- Abstract(参考訳): パラメータ効率のよい微調整手法の出現により、大規模な事前訓練されたモデルを下流の様々なタスクに適応させる際の計算負担が大幅に削減された。
しかし、既存のアプローチはしばしば、計算効率を維持しながらドメインシフトの下で堅牢なパフォーマンスを達成するのに苦労する。
この課題に対処するために、動的制約を低ランク適応法に統合するLARGO(Low-rAnk Regulated Gradient Projection)アルゴリズムを提案する。
具体的には、並列トレーニング可能な勾配プロジェクションを導入し、層間独立性を維持しながら、事前トレーニングされたモデルの外部分布ロバスト性を保ちながら、動的にレイヤワイズ更新を制御する。
さらに、重み更新時の層間の勾配依存性の影響を緩和することにより、計算効率を確保する。
さらに,事前学習した重みの特異値分解を構造化初期化に活用することにより,事前学習した知識からの逸脱を最小限に抑えるSVDベースの初期化戦略を取り入れた。
多様なベンチマークに関する広範な実験を通じて、LARGOはドメイン内およびアウト・オブ・ディストリビューションシナリオをまたいだ最先端のパフォーマンスを実現し、既存のPEFT手法に比べて計算オーバーヘッドが大幅に低いドメインシフト下での堅牢性の向上を実証した。
ソースコードはまもなくリリースされる予定だ。
関連論文リスト
- TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation [13.084333776247743]
微調整は分散シフトに対する堅牢性を低下させ、アウト・オブ・ディストリビューション(OOD)のパフォーマンスに影響を及ぼす。
本稿では,低ランク適応(LoRA)ブロックを選択的に活性化するインジケータ関数を用いたパラメータ効率細調整(PEFT)手法を提案する。
有効微調整は5%のアクティブブロックで実現でき、効率が大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-01-26T03:22:22Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Layer-wise Auto-Weighting for Non-Stationary Test-Time Adaptation [40.03897994619606]
連続的および漸進的TTAのためのレイヤワイド自動重み付けアルゴリズムを提案する。
そこで我々は,指数関数的な min-maxスケーラを提案し,外圧を緩和しながら,特定の層をほぼ凍結させる。
CIFAR-10C, CIFAR-100C, ImageNet-Cを用いた実験により, 従来の連続TTA法および漸進TTA法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-10T03:54:40Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。