Fugu-MT 論文翻訳(概要): MLAE: Masked LoRA Experts for Parameter-Efficient Fine-Tuning

論文の概要: MLAE: Masked LoRA Experts for Parameter-Efficient Fine-Tuning

arxiv url: http://arxiv.org/abs/2405.18897v1
Date: Wed, 29 May 2024 08:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 17:59:30.293488
Title: MLAE: Masked LoRA Experts for Parameter-Efficient Fine-Tuning
Title（参考訳）: MLAE:パラメータ効率の良いファインチューニングのためのマスク付きLoRAエキスパート
Authors: Junjie Wang, Guangjing Yang, Wentao Chen, Huahui Yi, Xiaohu Wu, Qicheng Lao,
Abstract要約: Masked LoRA Experts (MLAE) は、PEFTにマスキングの概念を適用する革新的なアプローチである。本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。 MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で新しいSOTA性能を実現する。
参考スコア（独自算出の注目度）: 8.651371656942016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In response to the challenges posed by the extensive parameter updates required for full fine-tuning of large-scale pre-trained models, parameter-efficient fine-tuning (PEFT) methods, exemplified by Low-Rank Adaptation (LoRA), have emerged. LoRA simplifies the fine-tuning process but may still struggle with a certain level of redundancy in low-rank matrices and limited effectiveness from merely increasing their rank. To address these issues, a natural idea is to enhance the independence and diversity of the learning process for the low-rank matrices. Therefore, we propose Masked LoRA Experts (MLAE), an innovative approach that applies the concept of masking to PEFT. Our method incorporates a cellular decomposition strategy that transforms a low-rank matrix into independent rank-1 submatrices, or ``experts'', thus enhancing independence. Additionally, we introduce a binary mask matrix that selectively activates these experts during training to promote more diverse and anisotropic learning, based on expert-level dropout strategies. Our investigations reveal that this selective activation not only enhances performance but also fosters a more diverse acquisition of knowledge with a marked decrease in parameter similarity among MLAE, significantly boosting the quality of the model while barely increasing the parameter count. Remarkably, MLAE achieves new SOTA performance with an average accuracy score of 78.8% on the VTAB-1k benchmark and 90.9% on the FGVC benchmark, demonstrating superior performance. Our code is available at https://github.com/jie040109/MLAE.
Abstract（参考訳）: 大規模事前学習モデルの完全微調整に要する広範囲なパラメータ更新による課題に対して,ローランド適応(LoRA)を例として,パラメータ効率のよい微調整(PEFT)法が出現している。 LoRAは微調整のプロセスを単純化するが、低ランク行列における一定の冗長性に苦しむ可能性があり、単にランクを上げることによる有効性は限られている。これらの問題に対処するため、自然な考え方は、低ランク行列の学習プロセスの独立性と多様性を高めることである。そこで我々は,マスクの概念をPEFTに適用する革新的な手法であるMasked LoRA Experts (MLAE)を提案する。本手法は,低ランク行列を独立したランク1サブマトリクス,すなわち 'experts' に変換するセル分解戦略を取り入れ,独立性を向上する。さらに、これらの専門家を訓練中に選択的に活性化する二項マスク行列を導入し、専門家レベルのドロップアウト戦略に基づいて、より多様で異方性のある学習を促進する。本研究により, この選択的活性化は, 性能の向上だけでなく, MLAE間のパラメータ類似性を顕著に低下させ, パラメータ数を増加させると共に, モデルの品質を著しく向上させると共に, より多様な知識獲得を促進することが明らかとなった。注目すべきことに、MLAEはVTAB-1kベンチマークで平均78.8%、FGVCベンチマークで90.9%の精度で新しいSOTA性能を実現し、優れた性能を示している。私たちのコードはhttps://github.com/jie040109/MLAEで利用可能です。

関連論文リスト

DenseLoRA: Dense Low-Rank Adaptation of Large Language Models [14.133511131962786]
低ランク適応 (LoRA) は大規模言語モデル (LLM) に適応するための効率的なアプローチとして開発されている。パラメータ効率を高めつつ,LoRAよりも優れた性能を実現する新しい手法であるDense Low-Rank Adaptation (DenseLoRA)を導入する。我々はDenseLoRAを様々なベンチマークで評価し、LLaMA3-8B上のトレーニング可能なパラメータの0.70%とLoRAの80.8%の精度と比較して、トレーニング可能なパラメータの0.01%で83.8%の精度を達成することを示した。
論文参考訳（メタデータ） (2025-05-27T08:19:07Z)
DiffoRA: Enabling Parameter-Efficient LLM Fine-Tuning via Differential Low-Rank Matrix Adaptation [32.369133126167085]
そこで我々は,理論上基礎を成し,モジュールワイドなLoRAを実現する,DiffoRAと呼ばれる新しいPEFT方式を提案する。 DiffoRAの中核には微分適応行列(DAM)があり、どのモジュールが最も適しており、微調整に不可欠かを決定する。提案手法は,様々なベンチマークにおいて,最先端のベースラインに対して最高のモデル精度を実現する。
論文参考訳（メタデータ） (2025-02-13T02:41:34Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)
ASLoRA: Adaptive Sharing Low-Rank Adaptation Across Layers [37.77593687901923]
ASLoRAはグローバル共有と部分適応共有を組み合わせた多層パラメータ共有戦略である。我々は様々なNLPタスクの実験を行い、パラメータの25%未満を使用しながら、ASLoRAがLoRAより優れていることを示した。
論文参考訳（メタデータ） (2024-12-13T13:32:13Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文参考訳（メタデータ） (2024-07-23T08:40:27Z)
Enhancing Parameter Efficiency and Generalization in Large-Scale Models: A Regularized and Masked Low-Rank Adaptation Approach [10.980433187379868]
低ランク適応(LoRA)は、良好な微調整結果を維持しつつ、資源消費を減らすために開発された。本稿では,LoRA法により近似された行列更新の本質的な次元について検討し,本質的な次元を増大させることによる性能上の利点を明らかにする。
論文参考訳（メタデータ） (2024-07-16T15:26:31Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-20T15:48:32Z)
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文参考訳（メタデータ） (2024-04-15T11:53:22Z)
LoRA Meets Dropout under a Unified Framework [38.5176197615878]
大規模言語モデル(LLM)は、多くのNLPアプリケーションにおいて重要な要素として現れている。様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されていたが、過剰なパラメータ冗長性に関連する過度な適合を緩和した。我々は,これらの手法を,落下位置,構造パターン,補償基準に基づいてインスタンス化する総合的な調査のための統一的な枠組みを導入する。
論文参考訳（メタデータ） (2024-02-25T07:09:10Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-20T11:56:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。