論文の概要: Enhancing Parameter Efficiency and Generalization in Large-Scale Models: A Regularized and Masked Low-Rank Adaptation Approach
- arxiv url: http://arxiv.org/abs/2407.12074v1
- Date: Tue, 16 Jul 2024 15:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 21:18:26.458176
- Title: Enhancing Parameter Efficiency and Generalization in Large-Scale Models: A Regularized and Masked Low-Rank Adaptation Approach
- Title(参考訳): 大規模モデルにおけるパラメータ効率と一般化の促進--正規化とマスク付き低ランク適応アプローチ
- Authors: Yuzhu Mao, Siqi Ping, Zihao Zhao, Yang Liu, Wenbo Ding,
- Abstract要約: 低ランク適応(LoRA)は、良好な微調整結果を維持しつつ、資源消費を減らすために開発された。
本稿では,LoRA法により近似された行列更新の本質的な次元について検討し,本質的な次元を増大させることによる性能上の利点を明らかにする。
- 参考スコア(独自算出の注目度): 10.980433187379868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained models, such as large language models (LLMs), present significant resource challenges for fine-tuning due to their extensive parameter sizes, especially for applications in mobile systems. To address this, Low-Rank Adaptation (LoRA) has been developed to reduce resource consumption while maintaining satisfactory fine-tuning results. Despite its effectiveness, the original LoRA method faces challenges of suboptimal performance and overfitting. This paper investigates the intrinsic dimension of the matrix updates approximated by the LoRA method and reveals the performance benefits of increasing this intrinsic dimension. By employing regularization and a gradient masking method that encourages higher intrinsic dimension, the proposed method, termed Regularized and Masked LoRA (RM-LoRA), achieves superior generalization performance with the same or lower trainable parameter budget compared to the original LoRA and its latest variants across various open-source vision and language datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)のような大規模事前学習モデルでは、特にモバイルシステムでの応用において、パラメータサイズが広いため、微調整において重要なリソース課題が生じる。
これを解決するため、ローランド適応(LoRA)は、良好な微調整結果を維持しつつ、資源消費を減らすために開発された。
その効果にもかかわらず、オリジナルのLoRA法は最適化性能と過度な適合性の課題に直面している。
本稿では,LoRA法により近似された行列更新の本質的な次元について検討し,本質的な次元を増大させることによる性能上の利点を明らかにする。
正規化法と勾配マスキング法を用いることで,正規化法とMasked LoRA (RM-LoRA) と呼ばれる手法は,従来のLoRAや,様々なオープンソースビジョンや言語データセットにまたがる最新のバリエーションと比較して,同じあるいは低いトレーニング可能なパラメータ予算で優れた一般化性能を実現する。
関連論文リスト
- Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models [0.0]
Low-Rank Adaptation (LoRA)はこれらの問題を緩和するための有望な方法として登場した。
OLoRAはLLMトレーニングの収束を著しく加速する。
OLoRAは、様々な言語モデリングタスクで標準のLoRAよりもパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-06-03T20:37:27Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。
トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。
本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-20T15:48:32Z) - Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A Brain-Inspired Method for Parameter-Efficient Fine-Tuning [11.037221461758806]
マトリックス変換に基づく低ランク適応(MTLoRA)は、脳の機能はその幾何学的構造によって形成されるという考えから着想を得ている。
MTLoRAは8つのタスクでパフォーマンスが約1.0%向上する。
論文 参考訳(メタデータ) (2024-03-12T09:32:25Z) - LoRA-SP: Streamlined Partial Parameter Adaptation for Resource-Efficient Fine-Tuning of Large Language Models [7.926974917872204]
LoRA-SPはランダム化半選択パラメータ凍結を利用した新しい手法である。
LoRA-SPは、モデル性能を損なうことなく、計算とメモリの要求を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T06:50:10Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning [34.109808214968176]
Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。
一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。
GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-13T17:59:32Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。