論文の概要: MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA based Mixture of Experts
- arxiv url: http://arxiv.org/abs/2404.15159v1
- Date: Mon, 22 Apr 2024 02:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:22:34.241798
- Title: MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA based Mixture of Experts
- Title(参考訳): MixLoRA: LoRAをベースとしたエキスパートのミキサーによる微調整による大規模言語モデルの実現
- Authors: Dengchun Li, Yingzi Ma, Naizheng Wang, Zhiyuan Cheng, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang,
- Abstract要約: MixLoRAは、リソース効率の良いスパースMoEモデルの構築を目的とした革新的なアプローチである。
実験では、MixLoRAは、シングルタスクとマルチタスクの学習シナリオの両方で、すべての評価指標の可読性を達成する。
- 参考スコア(独自算出の注目度): 2.197828671701335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have showcased exceptional performance across a wide array of Natural Language Processing (NLP) tasks. Fine-tuning techniques are commonly utilized to tailor pre-trained models to specific applications. While methods like LoRA have effectively tackled GPU memory constraints during fine-tuning, their applicability is often restricted to limited performance, especially on multi-task. On the other hand, Mix-of-Expert (MoE) models, such as Mixtral 8x7B, demonstrate remarkable performance across multiple NLP tasks while maintaining a reduced parameter count. However, the resource requirements of these MoEs still challenging, particularly for consumer-grade GPUs only have limited VRAM. To address these challenge, we propose MixLoRA, an innovative approach aimed at constructing a resource-efficient sparse MoE model based on LoRA. MixLoRA inserts multiple LoRA-based experts within the feed-forward network block of a frozen pre-trained dense model through fine-tuning, employing a commonly used top-k router. Unlike other LoRA based MoE methods, MixLoRA enhances model performance by utilizing independently configurable attention-layer LoRA adapters, supporting the use of LoRA and its variants for the construction of experts, and applying auxiliary load balance loss to address the imbalance problem of the router. In experiments, MixLoRA achieves commendable performance across all evaluation metrics in both single-task and multi-task learning scenarios. Implemented within the m-LoRA framework, MixLoRA enables parallel fine-tuning of multiple mixture-of-experts models on a single 24GB consumer-grade GPU without quantization, thereby reducing GPU memory consumption by 41\% and latency during the training process by 17\%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクで例外的なパフォーマンスを示した。
ファインチューニング技術は、特定のアプリケーションに事前訓練されたモデルを調整するために一般的に使用される。
LoRAのようなメソッドは、微調整中にGPUメモリの制約に効果的に取り組んだが、その適用性はしばしば、特にマルチタスクにおいて、限られたパフォーマンスに制限されている。
一方、Mixtral 8x7BのようなMix-of-Expert(MoE)モデルは、パラメータ数を削減しつつ、複数のNLPタスクにまたがる顕著な性能を示す。
しかし、特にコンシューマグレードのGPUでは、これらのMoEのリソース要件は、限られたVRAMしか持たない。
このような課題に対処するため,資源効率の低いMoEモデルの構築を目的としたMixLoRAを提案する。
MixLoRAは、凍ったトレーニング済みの高密度モデルのフィードフォワードネットワークブロック内に複数のLoRAベースのエキスパートを挿入し、通常使用されるトップkルータを使用する。
他のLoRAベースのMoE手法とは異なり、MixLoRAは独立に構成可能なアテンション層LoRAアダプタを活用し、専門家の構築にLoRAとその変種の使用をサポートし、ルータの不均衡問題に対処するために補助負荷バランス損失を適用することでモデル性能を向上させる。
実験では、MixLoRAは、シングルタスクとマルチタスクの学習シナリオの両方で、すべての評価指標の可読性を達成する。
m-LoRAフレームワーク内に実装されているMixLoRAは、量子化せずに、24GBのコンシューマグレードのGPU上で、複数のMix-of-expertsモデルの並列微調整を可能にする。
関連論文リスト
- LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report [3.304521604464247]
ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。
大規模言語モデル(LLM)の効率的な微細チューニング(PEFT)
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
論文 参考訳(メタデータ) (2024-04-29T04:01:45Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - MoELoRA: Contrastive Learning Guided Mixture of Experts on
Parameter-Efficient Fine-Tuning for Large Language Models [24.17147521556083]
本稿では,新しいPEFT手法であるMoELoRAを紹介する。
数学推論と常識推論のベンチマークにおいて,11のタスクについて実験を行った。
MoELoRAはLoRAよりも4.2%高い平均性能を達成し、いくつかのベンチマークで175B GPT-3.5と比較して競争性能を示した。
論文 参考訳(メタデータ) (2024-02-20T09:30:48Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a
Single GPU [4.198627205271621]
本稿では,変圧器をベースとした大規模言語モデル(LLM)を微調整するフレームワークであるASPENを紹介する。
ASPENは、LoRAメソッドを使用して、1つのGPU上で複数のジョブを効率的にトレーニングし、共有事前学習モデルと適応スケジューリングを活用する。
実験によると、NVIDIA A100 80GB GPU上で複数のLLaMA-7Bモデルをトレーニングする場合、ASPENはGPUメモリの53%を節約している。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [61.089170968404204]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [59.74018108967818]
低ランク適応(LoRA)は、安価に微調整された大型事前訓練モデル(LPM)に現れている。
LoRAPruneは、メモリ効率のよい推論のための正確でコンパクトなモデルを提供する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。