Fugu-MT 論文翻訳(概要): Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead

論文の概要: Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead

arxiv url: http://arxiv.org/abs/2407.00066v1
Date: Mon, 17 Jun 2024 15:21:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-07 13:43:41.740610
Title: Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead
Title（参考訳）: 数千ものLoRAアダプターを頭上から読み取るコンプレックス(動画あり)
Authors: Rickard Brüel-Gabrielsson, Jiacheng Zhu, Onkar Bhardwaj, Leshem Choshen, Kristjan Greenewald, Mikhail Yurochkin, Justin Solomon,
Abstract要約: 低ランクのアダプタ (LoRA) を持つ細調整の大型言語モデルは一般的な慣行となり、LoRA更新でのみ同じLLMのコピーを多数生成する。このパラダイムは、異なるLoRAを含むクエリに対するリアルタイム応答を提供するシステムの課題を示す。 SVDを用いて個別に圧縮アダプタを検討するとともに,LoRA固有のスケーリング行列と組み合わせた共有ベースにLoRAを共同圧縮する方法を提案する。
参考スコア（独自算出の注目度）: 41.31302904190149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning large language models (LLMs) with low-rank adapters (LoRAs) has become common practice, often yielding numerous copies of the same LLM differing only in their LoRA updates. This paradigm presents challenges for systems that serve real-time responses to queries that each involve a different LoRA. Prior works optimize the design of such systems but still require continuous loading and offloading of LoRAs, as it is infeasible to store thousands of LoRAs in GPU memory. To mitigate this issue, we investigate the efficacy of compression when serving LoRA adapters. We consider compressing adapters individually via SVD and propose a method for joint compression of LoRAs into a shared basis paired with LoRA-specific scaling matrices. Our experiments with up to 500 LoRAs demonstrate that compressed LoRAs preserve performance while offering major throughput gains in realistic serving scenarios with over a thousand LoRAs, maintaining 75% of the throughput of serving a single LoRA.
Abstract（参考訳）: 低ランクのアダプタ (LoRA) を搭載した細調整の大型言語モデル (LLM) が一般的となり、LoRA更新でのみ同じLLMのコピーを多数生成する。このパラダイムは、異なるLoRAを含むクエリに対するリアルタイム応答を提供するシステムの課題を示す。以前の作業では、そのようなシステムの設計を最適化していたが、GPUメモリに数千のLoRAを格納できないため、LoRAの継続的なロードとオフロードが依然として必要だった。この問題を軽減するため,LoRAアダプタの圧縮効果について検討する。 SVDを用いて個別に圧縮アダプタを検討するとともに,LoRA固有のスケーリング行列と組み合わせた共有ベースにLoRAを共同圧縮する方法を提案する。最大500LORAによる実験では、圧縮されたLORAは、1000LORA以上の現実的なサービスシナリオにおいて大きなスループット向上を提供し、単一のLORAを提供するスループットの75%を維持しながら、性能を保っていることが示された。

関連論文リスト

Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.98941571078398]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文参考訳（メタデータ） (2025-01-25T06:56:39Z)
LoRA Learns Less and Forgets Less [25.09261710396838]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。プログラムと数学の2つの対象領域におけるLoRAの性能と完全な微調整を比較した。
論文参考訳（メタデータ） (2024-05-15T19:27:45Z)
LoRA-as-an-Attack! Piercing LLM Safety Under The Share-and-Play Scenario [61.99243609126672]
LoRAモジュールにバックドアを注入し,LoRA感染機構を深く掘り下げる方法について検討した。我々の狙いは、LoRA-as-an-Attackによる潜在的な影響を積極的に防止するため、新興のシェア・アンド・プレイシナリオにおける潜在的なリスクの認識を高めることである。
論文参考訳（メタデータ） (2024-02-29T20:25:16Z)
LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。 6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文参考訳（メタデータ） (2024-02-18T04:41:25Z)
LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。 LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文参考訳（メタデータ） (2024-02-15T15:02:46Z)
LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation [27.123271324468657]
Low-Rank Adaptation (LoRA)は、現在最も一般的に使われている言語である。効率的な微細チューニング法(PEFT)。各レイヤの補助パラメータを導入し、限られたコンピューティングリソースの下で事前訓練されたモデルを微調整する。しかし、より大きなモデルにスケールアップする際には、依然としてリソース消費の課題に直面している。
論文参考訳（メタデータ） (2024-02-12T15:34:56Z)
S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文参考訳（メタデータ） (2023-11-06T17:26:17Z)
CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。 CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文参考訳（メタデータ） (2023-07-15T04:37:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。