論文の概要: K-Merge: Online Continual Merging of Adapters for On-device Large Language Models
- arxiv url: http://arxiv.org/abs/2510.13537v1
- Date: Wed, 15 Oct 2025 13:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.679343
- Title: K-Merge: Online Continual Merging of Adapters for On-device Large Language Models
- Title(参考訳): K-Merge: オンデバイス大規模言語モデルのためのアダプタのオンライン連続マージ
- Authors: Donald Shenaj, Ondrej Bohdal, Taha Ceritli, Mete Ozay, Pietro Zanuttigh, Umberto Michieli,
- Abstract要約: 大規模言語モデル(LLM)は、リソースの厳しい制約の下で様々な下流タスクをサポートする。
最近の研究は、複数のローランドアダプタ(LoRA)を1つに融合させるモデルマージ技術について検討している。
本稿では,データフリーで効率的なLoRAの選択とマージを行う手法を提案する。
- 参考スコア(独自算出の注目度): 42.53168201980569
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: On-device deployment of Large Language Models (LLMs) frequently leverages Low-Rank Adapters (LoRAs) to support diverse downstream tasks under tight resource constraints. To address the limited storage capacity of mobile devices, recent works have explored model merging techniques to fuse multiple LoRAs into a single one. In practice, however, LoRAs are often delivered incrementally, as users request support for new tasks (e.g., novel problem types or languages). This scenario introduces a new challenge: on-device online continual merging, where the objective is to incorporate new LoRAs while preserving the performance on previously supported tasks. In this paper, we propose a data-free and computationally efficient strategy for selecting and merging LoRAs when a new one becomes available, assuming the device can store only a limited number of adapters. Extensive experiments across real-world tasks demonstrate the superiority of our approach compared to alternative strategies while adhering to the storage budget and compute limitations of on-device settings.
- Abstract(参考訳): LLM(Large Language Models)のオンデバイスデプロイメントでは、リソースの厳しい制約の下でさまざまな下流タスクをサポートするために、ローランクアダプタ(LoRA)が頻繁に使用される。
モバイルデバイスのストレージ容量の制限に対処するため、最近の研究では、複数のLoRAを1つに融合するモデルマージ技術を模索している。
しかし実際には、ユーザが新しいタスク(新しい問題タイプや言語など)のサポートを要求するため、LoRAは徐々に配信されることが多い。
このシナリオでは、オンデバイスでのオンライン連続的なマージという新たな課題が導入されている。
本稿では,データフリーで効率的なLoRAの選択とマージを行う手法を提案する。
実世界のタスクにわたる大規模な実験は、ストレージ予算とオンデバイス設定の計算制限に固執しながら、代替戦略と比較して、我々のアプローチの優位性を実証している。
関連論文リスト
- Adaptive LoRA Merge with Parameter Pruning for Low-Resource Generation [9.156064716689833]
LoRAマージ技術は、異なるタスクでトレーニングされた複数のLoRAモジュールを統合する。
以前の方法はLoRAパラメータを凍結し続けるため、適応性に制限がある。
最小限のタスクデータを用いた微調整によりLoRAパラメータを更新およびプーンするLoRAマージ手法を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:34:25Z) - Federated Sketching LoRA: A Flexible Framework for Heterogeneous Collaborative Fine-Tuning of LLMs [37.03583502049329]
リソース制約のあるクライアント上での微調整大型言語モデル(LLM)は依然として難しい問題である。
最近の研究は、クライアントモデルのサイズやデータ不足に伴う課題を軽減するために、フェデレートされた微調整によるローランク適応(LoRA)技術と融合している。
サーバが保持するグローバルなLoRAモジュールのサブマトリクスをクライアントが更新できるように,スケッチ機構を活用したフェデレートスケッチLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-31T18:44:35Z) - In-Context Meta LoRA Generation [61.690065588534296]
Low-rank Adaptation (LoRA) はタスク固有の微調整機能を示す。
In-Context Meta LoRA (ICM-LoRA) は,大規模言語モデルのタスク固有のカスタマイズを効率的に行う新しい手法である。
ICM-LoRAは、現在のパラメータ再構成法よりも正確なLoRAパラメータ再構成を可能にする。
論文 参考訳(メタデータ) (2025-01-29T13:12:01Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。