論文の概要: Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning
- arxiv url: http://arxiv.org/abs/2406.16989v2
- Date: Tue, 16 Jul 2024 05:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:29:52.455871
- Title: Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning
- Title(参考訳): アップロード可能な機械学習のためのLoRAエキスパートの検索・拡張混合
- Authors: Ziyu Zhao, Leilei Gan, Guoyin Wang, Yuwei Hu, Tao Shen, Hongxia Yang, Kun Kuang, Fei Wu,
- Abstract要約: Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.36978335727009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Rank Adaptation (LoRA) offers an efficient way to fine-tune large language models (LLMs). Its modular and plug-and-play nature allows the integration of various domain-specific LoRAs, enhancing LLM capabilities. Open-source platforms like Huggingface and Modelscope have introduced a new computational paradigm, Uploadable Machine Learning (UML). In UML, contributors use decentralized data to train specialized adapters, which are then uploaded to a central platform to improve LLMs. This platform uses these domain-specific adapters to handle mixed-task requests requiring personalized service. Previous research on LoRA composition either focuses on specific tasks or fixes the LoRA selection during training. However, in UML, the pool of LoRAs is dynamically updated with new uploads, requiring a generalizable selection mechanism for unseen LoRAs. Additionally, the mixed-task nature of downstream requests necessitates personalized services. To address these challenges, we propose Retrieval-Augmented Mixture of LoRA Experts (RAMoLE), a framework that adaptively retrieves and composes multiple LoRAs based on input prompts. RAMoLE has three main components: LoraRetriever for identifying and retrieving relevant LoRAs, an on-the-fly MoLE mechanism for coordinating the retrieved LoRAs, and efficient batch inference for handling heterogeneous requests. Experimental results show that RAMoLE consistently outperforms baselines, highlighting its effectiveness and scalability.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
モジュール性とプラグアンドプレイ性により、様々なドメイン固有のLoRAの統合が可能になり、LLMの能力が向上する。
HuggingfaceやModelscopeのようなオープンソースのプラットフォームは、新しい計算パラダイムであるUploadable Machine Learning (UML)を導入した。
UMLでは、コントリビュータは専用のアダプタをトレーニングするために分散データを使用し、LLMを改善するために中央プラットフォームにアップロードされる。
このプラットフォームでは、ドメイン固有のアダプタを使用して、パーソナライズされたサービスを必要とする混合タスク要求を処理する。
LoRAの以前の研究は、特定のタスクに焦点を当てたり、トレーニング中のLoRAの選択を修正したりしていた。
しかしUMLでは、LoRAのプールは動的に更新され、新しいアップロードが加えられる。
さらに、ダウンストリームリクエストの混在する性質は、パーソナライズされたサービスを必要とします。
これらの課題に対処するために、入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークであるLora Experts (RAMoLE)を提案する。
RAMoLEには、関連するLoRAを特定して検索するLoraRetriever、取得したLoRAをコーディネートするオンザフライのMoLEメカニズム、異種リクエストを処理するための効率的なバッチ推論の3つの主要コンポーネントがある。
実験の結果、RAMoLEはベースラインを一貫して上回り、その有効性とスケーラビリティを強調している。
関連論文リスト
- MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models [4.978361907192563]
大規模言語モデル(LLM)用に設計されたスケーラブルなマルチ知識LoRA融合フレームワークであるMeteoRAを紹介する。
MeteoRAは様々なLoRAアダプタをMixture-of-Experts (MoE)スタイルのベースLLMに統合し、モデルがタスク入力に基づいて関連するアダプタを自動的に選択できるようにする。
LlaMA2-13B と LlaMA3-8B ベースモデルに既製の 28 個の LoRA アダプタを MeteoRA 経由で搭載し,各アダプタと同等の性能を示した。
論文 参考訳(メタデータ) (2024-05-19T20:46:07Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts
in Instruction Finetuning MLLMs [29.96139552754377]
MLLMの命令微調整に有効なMixture of Experts(MoE)設計法を提案する。
大規模な実験により、LLaVA-MoLEは複数の異なる命令データセットを混合する際のデータ競合問題を効果的に軽減することが証明された。
LLaVA-MoLEは2倍のサンプルで訓練された平らなLoRAベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-01-29T13:48:36Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA
Composition [46.770388457085936]
ローランク適応(LoRA)は、しばしば新しいタスクのために細調整された大きな言語モデル(LLM)に使用される。
本稿では,多様なタスクで訓練されたLoRAモジュールの組み立てのためのフレームワークであるLoraHubを紹介する。
新しいタスクからいくつか例を挙げると、LoraHubは複数のLoRAモジュールを流動的に結合することができ、人間の専門知識や前提を必要としない。
論文 参考訳(メタデータ) (2023-07-25T05:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。