論文の概要: MoELoRA: Contrastive Learning Guided Mixture of Experts on
Parameter-Efficient Fine-Tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.12851v1
- Date: Tue, 20 Feb 2024 09:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:09:23.807977
- Title: MoELoRA: Contrastive Learning Guided Mixture of Experts on
Parameter-Efficient Fine-Tuning for Large Language Models
- Title(参考訳): MoELoRA:大規模言語モデルのためのパラメータ効率の良いファインチューニングに関する専門家のコントラスト学習ガイド
- Authors: Tongxu Luo, Jiahe Lei, Fangyu Lei, Weihao Liu, Shizhu He, Jun Zhao and
Kang Liu
- Abstract要約: 本稿では,新しいPEFT手法であるMoELoRAを紹介する。
数学推論と常識推論のベンチマークにおいて,11のタスクについて実験を行った。
MoELoRAはLoRAよりも4.2%高い平均性能を達成し、いくつかのベンチマークで175B GPT-3.5と比較して競争性能を示した。
- 参考スコア(独自算出の注目度): 24.17147521556083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning is often necessary to enhance the adaptability of Large Language
Models (LLM) to downstream tasks. Nonetheless, the process of updating billions
of parameters demands significant computational resources and training time,
which poses a substantial obstacle to the widespread application of large-scale
models in various scenarios. To address this issue, Parameter-Efficient
Fine-Tuning (PEFT) has emerged as a prominent paradigm in recent research.
However, current PEFT approaches that employ a limited set of global parameters
(such as LoRA, which adds low-rank approximation matrices to all weights) face
challenges in flexibly combining different computational modules in downstream
tasks. In this work, we introduce a novel PEFT method: MoELoRA. We consider
LoRA as Mixture of Experts (MoE), and to mitigate the random routing phenomenon
observed in MoE, we propose the utilization of contrastive learning to
encourage experts to learn distinct features. We conducted experiments on 11
tasks in math reasoning and common-sense reasoning benchmarks. With the same
number of parameters, our approach outperforms LoRA significantly. In math
reasoning, MoELoRA achieved an average performance that was 4.2% higher than
LoRA, and demonstrated competitive performance compared to the 175B GPT-3.5 on
several benchmarks.
- Abstract(参考訳): 下流タスクへのLarge Language Models(LLM)の適用性を高めるためには、ファインチューニングがしばしば必要である。
それでも、数十億のパラメータを更新するプロセスには、重要な計算リソースとトレーニング時間が必要である。
この問題に対処するため,近年,パラメータ効率の良いファインチューニング(PEFT)が注目されている。
しかし、現在のPEFTアプローチでは(LoRAのように、全ての重みに低ランク近似行列を追加する)、下流タスクで異なる計算モジュールを柔軟に組み合わせることの難しさに直面している。
本稿では,新しいPEFT手法であるMoELoRAを紹介する。
我々はLoRAをMixture of Experts(MoE)とみなし、MoEで観測されるランダムなルーティング現象を軽減するために、専門家に異なる特徴の学習を促すためのコントラスト学習の利用を提案する。
数学推論と共通意味推論ベンチマークの11つのタスクについて実験を行った。
同じ数のパラメータで、我々のアプローチはLoRAを大きく上回る。
数学の推論において、MoELoRAはLoRAよりも4.2%高い平均性能を達成し、いくつかのベンチマークで175B GPT-3.5と比較して競争性能を示した。
関連論文リスト
- MALoRA: Mixture of Asymmetric Low-Rank Adaptation for Enhanced Multi-Task Learning [29.957620178740186]
マルチタスクのシナリオでは、トレーニングの不均衡やシーソー効果といった課題が頻繁に現れます。
フレキシブルな微調整フレームワークとして非対称低ランク適応(MALoRA)の混合を提案する。
MALoRAはトレーニング可能なパラメータの数を30%から48%削減し、トレーニング速度を1.2倍にし、シングルタスクのLoRAモデルの計算効率に匹敵する。
論文 参考訳(メタデータ) (2024-10-30T07:53:52Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts [3.6301530893494127]
MixLoRAは、リソース効率の良いスパースMoEモデルを構築するためのアプローチである。
評価の結果,MixLoRAはマルチタスク学習シナリオにおける最先端PEFT法と比較して約9%精度が向上していることがわかった。
論文 参考訳(メタデータ) (2024-04-22T02:15:52Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
大規模言語モデル(LLM)は大規模トレーニングにおいて重要な障害となっている。
ローランド適応(LoRA)はこの問題を軽減するために提案されている。
微調整作業におけるLoRAの層状特性について検討し、予期せぬが一貫した重みノルムの歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けた。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Higher Layers Need More LoRA Experts [23.72297945365351]
トランスフォーマーモデルのための新しいパラメータ効率MoE法であるtextittextbfMoE-LtextbfoRA と textbfLayer-wise Expert textbfAllocation (MoLA) を導入する。
6つのよく知られたNLPおよびCommonsense QAベンチマークの実験は、MoLAがすべてのベースラインと同等または優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-02-13T16:04:21Z) - Tied-Lora: Enhancing parameter efficiency of LoRA with weight tying [6.172790376076545]
低ランク適応(LoRA)のパラメータ効率を高めるために、ウェイトタイリングと選択的トレーニングを活用する新しいパラダイムであるTied-LoRAを導入する。
本稿では,パラメータトレーニングと凍結,およびウェイトタイリングを併用して,パラメータの最適トレードオフとトレーニング可能なパラメータの数を推定する。
論文 参考訳(メタデータ) (2023-11-16T05:29:39Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。