論文の概要: Efficient Deployment of Large Language Models on Resource-constrained Devices
- arxiv url: http://arxiv.org/abs/2501.02438v1
- Date: Sun, 05 Jan 2025 04:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 16:36:51.282459
- Title: Efficient Deployment of Large Language Models on Resource-constrained Devices
- Title(参考訳): 資源制約デバイスへの大規模言語モデルの効率的な展開
- Authors: Zhiwei Yao, Yang Xu, Hongli Xu, Yunming Liao, Zuan Xie,
- Abstract要約: 様々な下流タスクのために、リソース制約されたデバイス上でLLM(Large Language Models)を微調整する必要がある。
FedSpineは、PEFT(Efficient Fine-Tuning)と構造化プルーニングを組み合わせたフレームワークで、リソース制約のあるデバイスにLLMを効率的にデプロイする。
我々はFedSpineが1.4Times$$$timesで微調整を高速化し、最終的な精度を他のベースラインと比べて同じ間隔で0.4%-4.5%向上できることを示した。
- 参考スコア(独自算出の注目度): 12.644230479753476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Large Language Models (LLMs) on resource-constrained (or weak) devices presents significant challenges due to limited resources and heterogeneous data distribution. To address the data concern, it is necessary to fine-tune LLMs using on-device private data for various downstream tasks. While Federated Learning (FL) offers a promising privacy-preserving solution, existing fine-tuning methods retain the original LLM size, leaving issues of high inference latency and excessive memory demands unresolved. Hence, we design FedSpine, an FL framework that combines Parameter- Efficient Fine-Tuning (PEFT) with structured pruning for efficient deployment of LLMs on resource-constrained devices. Specifically, FedSpine introduces an iterative process to prune and tune the parameters of LLMs. To mitigate the impact of device heterogeneity, an online Multi-Armed Bandit (MAB) algorithm is employed to adaptively determine different pruning ratios and LoRA ranks for heterogeneous devices without any prior knowledge of their computing and communication capabilities. As a result, FedSpine maintains higher inference accuracy while improving fine-tuning efficiency. Experimental results conducted on a physical platform with 80 devices demonstrate that FedSpine can speed up fine-tuning by 1.4$\times$-6.9$\times$ and improve final accuracy by 0.4%-4.5% under the same sparsity level compared to other baselines.
- Abstract(参考訳): リソースに制約のある(あるいは弱い)デバイスにLLM(Large Language Models)をデプロイすることは、限られたリソースと不均一なデータ分散のために大きな課題となる。
データ問題に対処するためには、様々なダウンストリームタスクのためにデバイス上のプライベートデータを使用してLCMを微調整する必要がある。
フェデレートラーニング(FL)は将来性のあるプライバシ保護ソリューションを提供するが、既存の微調整手法は元のLLMサイズを維持し、高い推論遅延と過剰なメモリ要求の問題を未解決のまま残している。
そこで我々は、パラメータ効率の良いファインチューニング(PEFT)と構造化プルーニングを組み合わせたFLフレームワークであるFedSpineを設計し、資源制約されたデバイスにLLMを効率的に配置する。
具体的には、FedSpine は LLM のパラメータを熟考し調整するための反復的なプロセスを導入している。
デバイスの不均一性の影響を軽減するために、オンラインマルチアーマッドバンド(MAB)アルゴリズムを用いて、不均一デバイスに対する異なるプルーニング比とLoRAランクを、コンピュータと通信能力に関する事前知識なしで適応的に決定する。
その結果、FedSpineは微調整効率を改善しつつ高い推論精度を維持している。
80台のデバイスで行った実験の結果、FedSpineは1.4$\times$-6.9$\times$で微調整を高速化し、最終的な精度を他のベースラインと比較すると0.4%-4.5%向上することを示した。
関連論文リスト
- Resource-Efficient Federated Fine-Tuning Large Language Models for Heterogeneous Data [16.844142562389443]
フェデレートラーニング(Federated Learning)、すなわちフェデレーションラーニング(FedLLM)を通じて、さまざまな下流アプリケーションにLLMをプライバシ保護方式で適応させるための微調整大型言語モデル(LLM)が提案されている。
資源制約装置の微調整コストを低減するため、FedLLMにローランク適応(LoRA)を統合することにより、モデルパラメータの小さなサブセットのみを微調整することを提案した。
本稿では、これらの課題に対処するため、階層的なFedLoRAフレームワークであるHierFedLoRAを提案する。
論文 参考訳(メタデータ) (2025-03-27T07:05:22Z) - Efficient Federated Fine-Tuning of Large Language Models with Layer Dropout [15.009864792277236]
ファインチューニングは、訓練済みのLLMが一般的な言語理解からタスク固有の専門知識へと進化できるようにする上で重要な役割を担っている。
この研究は、新しいトランスフォーマードロップアウト方式を採用した革新的フェデレーションPEFTフレームワークであるDropPEFTを提案する。
DropPEFTはモデル収束の1.3-6.3倍の高速化とメモリフットプリントの40%-67%の削減を実現可能であることを示す。
論文 参考訳(メタデータ) (2025-03-13T09:59:16Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models [40.69348434971122]
本稿では,パラメータ効率の高い言語モデルの微調整のための新しい適応ランクアロケーションフレームワークであるFedARAを提案する。
FedARAは、ヘテロジニアスなデータの下で、さまざまなデータセットやモデルに対して平均6.95%から8.49%のベースラインを一貫して上回っている。
各種エッジデバイスの実験では、それぞれ48.90%、46.95%のトレーニング時間とエネルギー消費が大幅に減少している。
論文 参考訳(メタデータ) (2025-01-24T11:19:07Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - FedLPS: Heterogeneous Federated Learning for Multiple Tasks with Local
Parameter Sharing [14.938531944702193]
局所異種共有を用いたフェデレーション学習(FedLPS)を提案する。
FedLPSは転送学習を使用して、ローカルモデルを共有エンコーダとタスク固有のエンコーダに分割することで、複数のタスクをひとつのデバイスにデプロイする。
FedLPSは最先端(SOTA)のFLフレームワークを最大4.88%上回り、計算資源消費量を21.3%減らす。
論文 参考訳(メタデータ) (2024-02-13T16:30:30Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。