論文の概要: K-Merge: Online Continual Merging of Adapters for On-device Large Language Models
- arxiv url: http://arxiv.org/abs/2510.13537v1
- Date: Wed, 15 Oct 2025 13:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.679343
- Title: K-Merge: Online Continual Merging of Adapters for On-device Large Language Models
- Title(参考訳): K-Merge: オンデバイス大規模言語モデルのためのアダプタのオンライン連続マージ
- Authors: Donald Shenaj, Ondrej Bohdal, Taha Ceritli, Mete Ozay, Pietro Zanuttigh, Umberto Michieli,
- Abstract要約: 大規模言語モデル(LLM)は、リソースの厳しい制約の下で様々な下流タスクをサポートする。
最近の研究は、複数のローランドアダプタ(LoRA)を1つに融合させるモデルマージ技術について検討している。
本稿では,データフリーで効率的なLoRAの選択とマージを行う手法を提案する。
- 参考スコア(独自算出の注目度): 42.53168201980569
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: On-device deployment of Large Language Models (LLMs) frequently leverages Low-Rank Adapters (LoRAs) to support diverse downstream tasks under tight resource constraints. To address the limited storage capacity of mobile devices, recent works have explored model merging techniques to fuse multiple LoRAs into a single one. In practice, however, LoRAs are often delivered incrementally, as users request support for new tasks (e.g., novel problem types or languages). This scenario introduces a new challenge: on-device online continual merging, where the objective is to incorporate new LoRAs while preserving the performance on previously supported tasks. In this paper, we propose a data-free and computationally efficient strategy for selecting and merging LoRAs when a new one becomes available, assuming the device can store only a limited number of adapters. Extensive experiments across real-world tasks demonstrate the superiority of our approach compared to alternative strategies while adhering to the storage budget and compute limitations of on-device settings.
- Abstract(参考訳): LLM(Large Language Models)のオンデバイスデプロイメントでは、リソースの厳しい制約の下でさまざまな下流タスクをサポートするために、ローランクアダプタ(LoRA)が頻繁に使用される。
モバイルデバイスのストレージ容量の制限に対処するため、最近の研究では、複数のLoRAを1つに融合するモデルマージ技術を模索している。
しかし実際には、ユーザが新しいタスク(新しい問題タイプや言語など)のサポートを要求するため、LoRAは徐々に配信されることが多い。
このシナリオでは、オンデバイスでのオンライン連続的なマージという新たな課題が導入されている。
本稿では,データフリーで効率的なLoRAの選択とマージを行う手法を提案する。
実世界のタスクにわたる大規模な実験は、ストレージ予算とオンデバイス設定の計算制限に固執しながら、代替戦略と比較して、我々のアプローチの優位性を実証している。
関連論文リスト
- Data-driven Clustering and Merging of Adapters for On-device Large Language Models [34.58968471192321]
デバイス上の大規模言語モデルは一般的に、ダウンストリームタスクで強力なパフォーマンスを提供するためにタスク固有のアダプタ(例えばLoRA)を使用する。
これは、複数のタスクにまたがってうまく一般化する代表アダプタをどのように選択するかという、重要な課題を提起する。
本稿では、最小限のタスク固有の例を活用し、反復最適化プロセスを用いてクラスタ割り当てを洗練するアダプタクラスタリングのための新しい手法D2Cを提案する。
論文 参考訳(メタデータ) (2026-01-24T12:25:46Z) - Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems [11.584593298674688]
Low-Rank Adaptation (LoRA)は,大規模言語モデル(LLM)のパラメータ効率向上のためのデファクト手法となった。
プロダクションでは、LoRAベースのモデルが大規模に提供され、数百のアダプタがベースモデルを共有するマルチテナント環境を生成する。
作業負荷を考慮した動的アダプタ配置とルーティングフレームワークであるLoRAServeについて述べる。
論文 参考訳(メタデータ) (2025-11-28T05:04:02Z) - LoRA on the Go: Instance-level Dynamic LoRA Selection and Merging [9.68092924064735]
Low-Rank Adaptation (LoRA) は、大規模言語モデルを微調整するためのパラメータ効率の高いアプローチとして登場した。
LoGoはトレーニング不要のフレームワークで、追加の要件なしにインスタンスレベルでアダプタを動的に選択し、マージする。
LoGoはトレーニングベースのベースラインを3.6%まで上回り、他のタスクでは競争力を維持している。
論文 参考訳(メタデータ) (2025-11-10T14:13:10Z) - Adaptive LoRA Merge with Parameter Pruning for Low-Resource Generation [9.156064716689833]
LoRAマージ技術は、異なるタスクでトレーニングされた複数のLoRAモジュールを統合する。
以前の方法はLoRAパラメータを凍結し続けるため、適応性に制限がある。
最小限のタスクデータを用いた微調整によりLoRAパラメータを更新およびプーンするLoRAマージ手法を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:34:25Z) - Federated Sketching LoRA: A Flexible Framework for Heterogeneous Collaborative Fine-Tuning of LLMs [37.03583502049329]
リソース制約のあるクライアント上での微調整大型言語モデル(LLM)は依然として難しい問題である。
最近の研究は、クライアントモデルのサイズやデータ不足に伴う課題を軽減するために、フェデレートされた微調整によるローランク適応(LoRA)技術と融合している。
サーバが保持するグローバルなLoRAモジュールのサブマトリクスをクライアントが更新できるように,スケッチ機構を活用したフェデレートスケッチLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-31T18:44:35Z) - In-Context Meta LoRA Generation [61.690065588534296]
Low-rank Adaptation (LoRA) はタスク固有の微調整機能を示す。
In-Context Meta LoRA (ICM-LoRA) は,大規模言語モデルのタスク固有のカスタマイズを効率的に行う新しい手法である。
ICM-LoRAは、現在のパラメータ再構成法よりも正確なLoRAパラメータ再構成を可能にする。
論文 参考訳(メタデータ) (2025-01-29T13:12:01Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。