論文の概要: Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving
- arxiv url: http://arxiv.org/abs/2511.00101v1
- Date: Thu, 30 Oct 2025 17:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.593461
- Title: Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving
- Title(参考訳): Loquetier: 統一LLMファインチューニングと実行のための仮想化マルチロRAフレームワーク
- Authors: Yuchen Zhang, Hanyue Du, Chun Cao, Jingwei Xu,
- Abstract要約: Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を下流タスクに適用するためのPEFT技術として広く採用されている。
LoRAファインチューニングをシームレスに統合し、単一のランタイム内で機能するフレームワークであるLoquetierを紹介します。
- 参考スコア(独自算出の注目度): 8.857656362783418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Rank Adaptation (LoRA) has become a widely adopted parameter-efficient fine-tuning (PEFT) technique for adapting large language models (LLMs) to downstream tasks. While prior work has explored strategies for integrating LLM training and serving, there still remains a gap in unifying fine-tuning and inference for LoRA-based models. We present Loquetier, a virtualized multi-LoRA framework that seamlessly integrates LoRA fine-tuning and serving within a single runtime. Loquetier introduces two key components: (1) a Virtualized Module that isolates PEFT-based modifications and supports multiple adapters on a shared base model, and (2) an optimized computation flow with a kernel design that merges fine-tuning and inference paths in forward propagation, enabling efficient batching and minimizing kernel invocation overhead. Extensive experiments across three task settings show that Loquetier consistently outperforms existing baselines in both performance and flexibility, achieving up to $3.0\times$ the throughput of the state-of-the-art co-serving system on inference-only tasks and $46.4\times$ higher SLO attainment than PEFT on unified fine-tuning and inference tasks. The implementation of Loquetier is publicly available at https://github.com/NJUDeepEngine/Loquetier.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を下流タスクに適用するためのPEFT技術として広く採用されている。
以前の研究ではLLMトレーニングとサービスの統合戦略が検討されていたが、LoRAベースのモデルのための微調整と推論の統合には依然としてギャップが残っている。
Loquetierは、LoRAの微調整をシームレスに統合し、単一のランタイム内で機能する仮想化マルチLoRAフレームワークである。
Loquetierは,1)PEFTベースの修正を分離し,共有ベースモデル上で複数のアダプタをサポートする仮想化モジュール,2)前処理の微調整と推論パスをマージするカーネル設計による最適化された計算フロー,そして,効率的なバッチ処理とカーネル呼び出しオーバーヘッドの最小化を実現する。
3つのタスク設定にわたる大規模な実験により、Loquetierはパフォーマンスと柔軟性の両方において既存のベースラインを一貫して上回り、推論のみのタスクで最先端のコサービスシステムのスループットを最大3.0\times$、統一された微調整と推論タスクでPEFTよりも高いSLO達成率を46.4\times$で達成している。
Loquetierの実装はhttps://github.com/NJUDeepEngine/Loquetierで公開されている。
関連論文リスト
- CoLA: Collaborative Low-Rank Adaptation [3.421904493396495]
特定のタスクに対する事前学習モデルの微調整は、高い性能を達成するが、計算的に高価で非効率である。
LoRAは特に有効であることが証明されているが、マルチタスクシナリオへの応用はタスク間の干渉によって制限されている。
我々は、より柔軟なLoRAアーキテクチャと3つの協調戦略であるCoLAを提案し、$A$と$B$の間の量的関係をよりよく活用することでパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-21T12:46:42Z) - HSplitLoRA: A Heterogeneous Split Parameter-Efficient Fine-Tuning Framework for Large Language Models [30.345920952847752]
大規模言語モデル(LLM)は、自然言語処理領域などに革命をもたらし、目覚ましいブレークスルーを達成した。
膨大なパラメータサイズのため、様々な下流タスクのためのプライベートデータでこれらのモデルを微調整することが主流になっている。
本研究では,分割学習(SL)と低ランク適応(LoRA)に基づくフレームワークであるHSplitLoRAを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:09:19Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation [4.07532985236519]
textbfShared textbfRank textbfAdaptation (ShareLoRA)を導入する。
ShareLoRAは、性能を損なうことなく、パラメータ効率、適応性、堅牢性をバランスさせる。
ゼロショット、少数ショット、連続的な微調整シナリオにおいて、一貫してLoRAを上回っている。
論文 参考訳(メタデータ) (2024-06-16T02:52:28Z) - MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models [4.978361907192563]
MeteoRAはスケーラブルで効率的なフレームワークで、複数のタスク固有のLoRAアダプタをベースLLMに再利用する。
MeteoRAは複合タスクの処理において優れた性能を実現し、単一の推論パスで10のシーケンシャルな問題を効果的に解決する。
論文 参考訳(メタデータ) (2024-05-19T20:46:07Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。