論文の概要: Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning
- arxiv url: http://arxiv.org/abs/2406.16989v2
- Date: Tue, 16 Jul 2024 05:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:29:52.455871
- Title: Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning
- Title(参考訳): アップロード可能な機械学習のためのLoRAエキスパートの検索・拡張混合
- Authors: Ziyu Zhao, Leilei Gan, Guoyin Wang, Yuwei Hu, Tao Shen, Hongxia Yang, Kun Kuang, Fei Wu,
- Abstract要約: Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.36978335727009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Rank Adaptation (LoRA) offers an efficient way to fine-tune large language models (LLMs). Its modular and plug-and-play nature allows the integration of various domain-specific LoRAs, enhancing LLM capabilities. Open-source platforms like Huggingface and Modelscope have introduced a new computational paradigm, Uploadable Machine Learning (UML). In UML, contributors use decentralized data to train specialized adapters, which are then uploaded to a central platform to improve LLMs. This platform uses these domain-specific adapters to handle mixed-task requests requiring personalized service. Previous research on LoRA composition either focuses on specific tasks or fixes the LoRA selection during training. However, in UML, the pool of LoRAs is dynamically updated with new uploads, requiring a generalizable selection mechanism for unseen LoRAs. Additionally, the mixed-task nature of downstream requests necessitates personalized services. To address these challenges, we propose Retrieval-Augmented Mixture of LoRA Experts (RAMoLE), a framework that adaptively retrieves and composes multiple LoRAs based on input prompts. RAMoLE has three main components: LoraRetriever for identifying and retrieving relevant LoRAs, an on-the-fly MoLE mechanism for coordinating the retrieved LoRAs, and efficient batch inference for handling heterogeneous requests. Experimental results show that RAMoLE consistently outperforms baselines, highlighting its effectiveness and scalability.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
モジュール性とプラグアンドプレイ性により、様々なドメイン固有のLoRAの統合が可能になり、LLMの能力が向上する。
HuggingfaceやModelscopeのようなオープンソースのプラットフォームは、新しい計算パラダイムであるUploadable Machine Learning (UML)を導入した。
UMLでは、コントリビュータは専用のアダプタをトレーニングするために分散データを使用し、LLMを改善するために中央プラットフォームにアップロードされる。
このプラットフォームでは、ドメイン固有のアダプタを使用して、パーソナライズされたサービスを必要とする混合タスク要求を処理する。
LoRAの以前の研究は、特定のタスクに焦点を当てたり、トレーニング中のLoRAの選択を修正したりしていた。
しかしUMLでは、LoRAのプールは動的に更新され、新しいアップロードが加えられる。
さらに、ダウンストリームリクエストの混在する性質は、パーソナライズされたサービスを必要とします。
これらの課題に対処するために、入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークであるLora Experts (RAMoLE)を提案する。
RAMoLEには、関連するLoRAを特定して検索するLoraRetriever、取得したLoRAをコーディネートするオンザフライのMoLEメカニズム、異種リクエストを処理するための効率的なバッチ推論の3つの主要コンポーネントがある。
実験の結果、RAMoLEはベースラインを一貫して上回り、その有効性とスケーラビリティを強調している。
関連論文リスト
- Merging LoRAs like Playing LEGO: Pushing the Modularity of LoRA to Extremes Through Rank-Wise Clustering [35.54018186415654]
Low-Rank Adaptation (LoRA) は、様々なドメインに最適化された大規模言語モデル(LLM)の一般的なテクニックとして登場した。
LoRA合成の既存の方法は、主に追加の訓練を必要とするタスク固有の適応に焦点を当てている。
本稿では,LoRAにおける各ランクに対応するパラメータが独立単位として機能する最小意味単位(MSU)の概念を紹介する。
我々は、異なるLoRAから$k$のクラスタにMSUをグループ化することで、ランクワイズパラメータクラスタリングを行うLoRA-LEGOフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T15:08:41Z) - MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models [4.978361907192563]
MeteoRAはスケーラブルで効率的なフレームワークで、複数のタスク固有のLoRAアダプタをベースLLMに再利用する。
MeteoRAは複合タスクの処理において優れた性能を実現し、単一の推論パスで10のシーケンシャルな問題を効果的に解決する。
論文 参考訳(メタデータ) (2024-05-19T20:46:07Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts
in Instruction Finetuning MLLMs [29.96139552754377]
MLLMの命令微調整に有効なMixture of Experts(MoE)設計法を提案する。
大規模な実験により、LLaVA-MoLEは複数の異なる命令データセットを混合する際のデータ競合問題を効果的に軽減することが証明された。
LLaVA-MoLEは2倍のサンプルで訓練された平らなLoRAベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-01-29T13:48:36Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition [44.13900539802629]
ローランク適応(LoRA)は、しばしば新しいタスクのために細調整された大きな言語モデル(LLM)に使用される。
本稿では,多様なタスクで訓練されたLoRAモジュールの組み立てのためのフレームワークであるLoraHubを紹介する。
新しいタスクからいくつか例を挙げると、LoraHubは複数のLoRAモジュールを流動的に結合することができ、人間の専門知識や前提を必要としない。
論文 参考訳(メタデータ) (2023-07-25T05:39:21Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。