論文の概要: LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report
- arxiv url: http://arxiv.org/abs/2405.00732v1
- Date: Mon, 29 Apr 2024 04:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 21:02:11.702284
- Title: LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report
- Title(参考訳): ロラランド:GPT-4を回転させた310個の微調整LDM技術報告
- Authors: Justin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg, Jeffery Kinnison, Alex Sherstinsky, Piero Molino, Travis Addair, Devvret Rishi,
- Abstract要約: ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。
大規模言語モデル(LLM)の効率的な微細チューニング(PEFT)
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
- 参考スコア(独自算出の注目度): 3.304521604464247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low Rank Adaptation (LoRA) has emerged as one of the most widely adopted methods for Parameter Efficient Fine-Tuning (PEFT) of Large Language Models (LLMs). LoRA reduces the number of trainable parameters and memory usage while achieving comparable performance to full fine-tuning. We aim to assess the viability of training and serving LLMs fine-tuned with LoRA in real-world applications. First, we measure the quality of LLMs fine-tuned with quantized low rank adapters across 10 base models and 31 tasks for a total of 310 models. We find that 4-bit LoRA fine-tuned models outperform base models by 34 points and GPT-4 by 10 points on average. Second, we investigate the most effective base models for fine-tuning and assess the correlative and predictive capacities of task complexity heuristics in forecasting the outcomes of fine-tuning. Finally, we evaluate the latency and concurrency capabilities of LoRAX, an open-source Multi-LoRA inference server that facilitates the deployment of multiple LoRA fine-tuned models on a single GPU using shared base model weights and dynamic adapter loading. LoRAX powers LoRA Land, a web application that hosts 25 LoRA fine-tuned Mistral-7B LLMs on a single NVIDIA A100 GPU with 80GB memory. LoRA Land highlights the quality and cost-effectiveness of employing multiple specialized LLMs over a single, general-purpose LLM.
- Abstract(参考訳): 低ランク適応 (LoRA) は、大規模言語モデル (LLM) のパラメータ効率的な微調整 (PEFT) のための最も広く採用されている手法の1つである。
LoRAは、トレーニング可能なパラメータとメモリ使用量を減らすと同時に、完全な微調整に匹敵するパフォーマンスを実現している。
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
まず,10のベースモデルと31のタスクに対して,310のモデルに対して,量子化低ランクアダプタを用いて微調整したLLMの品質を測定した。
その結果, 4ビットLORA微調整モデルでは, ベースモデルでは34点, GPT-4では10点に優れていた。
第2に、微調整の結果を予測する上で、タスク複雑性ヒューリスティックスの相関性と予測能力について、最も効果的な基礎モデルについて検討する。
最後に,オープンソースのマルチLoRA推論サーバであるLoRAXのレイテンシと並行性を評価し,共有ベースモデル重み付けと動的アダプタローディングを用いて,複数のLoRA微調整モデルの単一GPUへの展開を容易にする。
LoRAXは、80GBメモリを持つ単一のNVIDIA A100 GPU上で、25のLoRA微調整されたMistral-7B LLMをホストするWebアプリケーションであるLoRA Landを駆動する。
LoRA Landは、単一の汎用LSM上で複数の特殊なLSMを使用する場合の品質とコスト効率を強調している。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - NOLA: Compressing LoRA using Linear Combination of Random Basis [22.76088132446952]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
NOLAは、ランク1のLoRAと比較してパラメータ数がはるかに少ないLoRAモデルと同様に、最高の圧縮LoRAをアーカイブできる。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。