論文の概要: ReLoRA: Knowledge-Reusing Adaptation for Fast Rollout of Evolving LLM Services
- arxiv url: http://arxiv.org/abs/2606.02606v1
- Date: Sat, 23 May 2026 15:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.586128
- Title: ReLoRA: Knowledge-Reusing Adaptation for Fast Rollout of Evolving LLM Services
- Title(参考訳): ReLoRA: LLMサービスの高速ロールアウトのための知識再利用適応
- Authors: Yang Xu, Zihuai Xu, Hongli Xu, Yunming Liao, Zhiwei Yao, Xitong Fu,
- Abstract要約: 大規模言語モデル(LLM)は、継続的に進化するサービスとして、ますます多くデプロイされている。
頻繁なベースモデル更新は、以前デプロイされたタスク固有のローランド適応(LoRA)アダプタを無効にする可能性がある。
本稿では,LLM サービスの進化のために,サービス対応の LoRA アダプタを効率的に復元する知識再利用型再適応フレームワーク ReLoRA を提案する。
- 参考スコア(独自算出の注目度): 17.956439583365544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed as continuously evolving services, where frequent base-model updates may invalidate previously deployed task-specific Low-Rank Adaptation (LoRA) adapters. For service providers managing numerous downstream model services, retraining each LoRA adapter from scratch for every updated base model is computationally prohibitive and delays service rollout. Meanwhile, the simpler alternative, i.e., naively applying the original LoRA adapter to the updated base model, often leads to degraded service quality due to adapter-backbone incompatibility. To address this problem, we propose ReLoRA, a knowledge-reusing re-adaptation framework that efficiently restores service-ready LoRA adapters for evolving LLM services while preserving or improving task performance. Specifically, ReLoRA comprises two key optimization steps: 1) Adaptive LoRA initialization leverages Bayesian optimization to construct a compatibility-aware starting point by fusing information from both the previously deployed task adapter and the base model's evolution; 2) Fine-tuning with scheduled regularization first rapidly steers the adapter to a high-quality region via strong regularization, followed by relaxed regularization for task-specific refinement. This design enables rapid service-quality recovery with reduced re-adaptation overhead. Extensive experiments demonstrate that ReLoRA reduces time-to-readiness by up to 8.9$\times$ and improves accuracy by up to 4.6\% compared to baselines.
- Abstract(参考訳): 大きな言語モデル(LLM)は、継続的に進化するサービスとしてますますデプロイされ、ベースモデルの頻繁な更新は、以前デプロイされたタスク固有のローランド適応(LoRA)アダプタを無効にする可能性がある。
多くのダウンストリームモデルサービスを管理するサービスプロバイダにとって、更新されたベースモデル毎に各LoRAアダプタをスクラッチからトレーニングすることは、計算的に禁止され、サービスのロールアウトが遅れる。
一方、より単純な代替案、すなわちオリジナルのLoRAアダプタを更新ベースモデルに適用することで、しばしばアダプタバックボーンの不互換性によるサービス品質が低下する。
この問題を解決するために,LLM サービスの進化のためのサービス対応 LoRA アダプタを効率よく復元し,タスク性能を維持・改善する知識再利用型再適応フレームワーク ReLoRA を提案する。
具体的には、ReLoRAには2つの重要な最適化ステップがある。
1) 適応LoRA初期化はベイズ最適化を利用して,以前にデプロイされたタスクアダプタからの情報とベースモデルの進化を融合させて,互換性を考慮した出発点を構築する。
2) スケジュール正則化によるファインチューニングは, 高い正則化を経た後に, タスク固有の精細化のための緩和された正則化を行う。
この設計は、再適応オーバーヘッドを減らし、迅速なサービス品質回復を可能にする。
大規模な実験では、ReLoRAは最大8.9$\times$を削減し、ベースラインに比べて4.6\%の精度を向上している。
関連論文リスト
- Amortizing Federated Adaptation: Hypernetwork Driven LoRA for Personalized Foundation Models [7.174865411448373]
Low-Rank Adaptation (LoRA) を用いた基礎モデルのフェデレート微調整は、分散学習のためのコミュニケーション効率の良いソリューションを提供する。
既存のLoRAメソッドには,(1)構造的アグリゲーションバイアス,(2)クライアント側ラグという2つの基本的な制限がある。
我々は、ハイパーネットワーク駆動のLoRA生成と製品空間の集約によるアモータイズされたフェデレーションにより、両方の問題に対処する統一されたフレームワークHyperLoRAを提案する。
論文 参考訳(メタデータ) (2026-06-04T13:28:48Z) - Strategic Over-Parameterization for Generalizable Low-Rank Adaptation [14.867641913391779]
大規模言語モデルへの完全な微調整による下流タスクへの適応は、計算とメモリの要求のため、ますます現実的ではない。
LoRA-Overは単純な原則に基づくフレームワークで、トレーニング中に最適化の風景を豊かにし、推論時に豊かにする。
LLaMA 2-7B と LLaMA 3.1-8B を用いた言語理解 (GLUE, T5-Base), 対話 (MT-Bench), 算術的推論 (GSM8K), コード生成 (HumanEval) に基づく LoRA-Over の評価を行った。
論文 参考訳(メタデータ) (2026-05-15T12:26:17Z) - ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads [9.260490240412308]
Low-Rank Adaptation (LoRA) は、現在、大規模言語モデルのパラメータ効率の高い微調整において支配的な手法である。
LoRAのパフォーマンスは構成の選択に非常に敏感であり、同時に多くのLoRAジョブが実行される。
効率的なクラスタ共有を実現しつつ,LoRAハイパーパラメータチューニングを高速化する,共同設計のトレーニングシステムであるALTOを提案する。
論文 参考訳(メタデータ) (2026-04-07T04:40:17Z) - tLoRA: Efficient Multi-LoRA Training with Elastic Shared Super-Models [8.42285475305854]
tLoRAは、複数のLoRAジョブの効率的なバッチトレーニングを可能にするフレームワークである。
実世界のクラスタトレースを用いた評価では、tLoRAはトレーニングを1.2-1.8x改善し、ジョブトレーニング完了時間を2.3--5.4x改善し、GPU利用率を37%改善している。
論文 参考訳(メタデータ) (2026-02-06T23:26:02Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。