論文の概要: MLAE: Masked LoRA Experts for Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2405.18897v1
- Date: Wed, 29 May 2024 08:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:59:30.293488
- Title: MLAE: Masked LoRA Experts for Parameter-Efficient Fine-Tuning
- Title(参考訳): MLAE:パラメータ効率の良いファインチューニングのためのマスク付きLoRAエキスパート
- Authors: Junjie Wang, Guangjing Yang, Wentao Chen, Huahui Yi, Xiaohu Wu, Qicheng Lao,
- Abstract要約: Masked LoRA Experts (MLAE) は、PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で新しいSOTA性能を実現する。
- 参考スコア(独自算出の注目度): 8.651371656942016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In response to the challenges posed by the extensive parameter updates required for full fine-tuning of large-scale pre-trained models, parameter-efficient fine-tuning (PEFT) methods, exemplified by Low-Rank Adaptation (LoRA), have emerged. LoRA simplifies the fine-tuning process but may still struggle with a certain level of redundancy in low-rank matrices and limited effectiveness from merely increasing their rank. To address these issues, a natural idea is to enhance the independence and diversity of the learning process for the low-rank matrices. Therefore, we propose Masked LoRA Experts (MLAE), an innovative approach that applies the concept of masking to PEFT. Our method incorporates a cellular decomposition strategy that transforms a low-rank matrix into independent rank-1 submatrices, or ``experts'', thus enhancing independence. Additionally, we introduce a binary mask matrix that selectively activates these experts during training to promote more diverse and anisotropic learning, based on expert-level dropout strategies. Our investigations reveal that this selective activation not only enhances performance but also fosters a more diverse acquisition of knowledge with a marked decrease in parameter similarity among MLAE, significantly boosting the quality of the model while barely increasing the parameter count. Remarkably, MLAE achieves new SOTA performance with an average accuracy score of 78.8% on the VTAB-1k benchmark and 90.9% on the FGVC benchmark, demonstrating superior performance. Our code is available at https://github.com/jie040109/MLAE.
- Abstract(参考訳): 大規模事前学習モデルの完全微調整に要する広範囲なパラメータ更新による課題に対して,ローランド適応(LoRA)を例として,パラメータ効率のよい微調整(PEFT)法が出現している。
LoRAは微調整のプロセスを単純化するが、低ランク行列における一定の冗長性に苦しむ可能性があり、単にランクを上げることによる有効性は限られている。
これらの問題に対処するため、自然な考え方は、低ランク行列の学習プロセスの独立性と多様性を高めることである。
そこで我々は,マスクの概念をPEFTに適用する革新的な手法であるMasked LoRA Experts (MLAE)を提案する。
本手法は,低ランク行列を独立したランク1サブマトリクス,すなわち 'experts' に変換するセル分解戦略を取り入れ,独立性を向上する。
さらに、これらの専門家を訓練中に選択的に活性化する二項マスク行列を導入し、専門家レベルのドロップアウト戦略に基づいて、より多様で異方性のある学習を促進する。
本研究により, この選択的活性化は, 性能の向上だけでなく, MLAE間のパラメータ類似性を顕著に低下させ, パラメータ数を増加させると共に, モデルの品質を著しく向上させると共に, より多様な知識獲得を促進することが明らかとなった。
注目すべきことに、MLAEはVTAB-1kベンチマークで平均78.8%、FGVCベンチマークで90.9%の精度で新しいSOTA性能を実現し、優れた性能を示している。
私たちのコードはhttps://github.com/jie040109/MLAEで利用可能です。
関連論文リスト
- DiffoRA: Enabling Parameter-Efficient LLM Fine-Tuning via Differential Low-Rank Matrix Adaptation [32.369133126167085]
そこで我々は,理論上基礎を成し,モジュールワイドなLoRAを実現する,DiffoRAと呼ばれる新しいPEFT方式を提案する。
DiffoRAの中核には微分適応行列(DAM)があり、どのモジュールが最も適しており、微調整に不可欠かを決定する。
提案手法は,様々なベンチマークにおいて,最先端のベースラインに対して最高のモデル精度を実現する。
論文 参考訳(メタデータ) (2025-02-13T02:41:34Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - ASLoRA: Adaptive Sharing Low-Rank Adaptation Across Layers [37.77593687901923]
ASLoRAはグローバル共有と部分適応共有を組み合わせた多層パラメータ共有戦略である。
我々は様々なNLPタスクの実験を行い、パラメータの25%未満を使用しながら、ASLoRAがLoRAより優れていることを示した。
論文 参考訳(メタデータ) (2024-12-13T13:32:13Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。