Fugu-MT 論文翻訳(概要): MobiLLM: Enabling LLM Fine-Tuning on the Mobile Device via Server Assisted Side Tuning

論文の概要: MobiLLM: Enabling LLM Fine-Tuning on the Mobile Device via Server Assisted Side Tuning

arxiv url: http://arxiv.org/abs/2502.20421v1
Date: Thu, 27 Feb 2025 07:58:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.410697
Title: MobiLLM: Enabling LLM Fine-Tuning on the Mobile Device via Server Assisted Side Tuning
Title（参考訳）: MobiLLM: サーバアシストサイドチューニングによるモバイルデバイス上でのLDMファインチューニングの実現
Authors: Liang Li, Xingke Yang, Wen Wu, Hao Wang, Tomoaki Ohtsuki, Xin Fu, Miao Pan, Xuemin Shen,
Abstract要約: モバイルデバイスでの大規模言語モデル(LLM)の微調整は、極めて高いメモリ要求と遅いトレーニング速度のため、大きな課題となる。サーバ支援サイドチューニングにより,モバイル端末上でメモリ効率の高いトランスフォーマーLEMの微調整を可能にするMobiLLMを提案する。
参考スコア（独自算出の注目度）: 45.49178219392948
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Model (LLM) at mobile devices and its potential applications never fail to fascinate. However, on-device LLM fine-tuning poses great challenges due to extremely high memory requirements and slow training speeds. Even with parameter-efficient fine-tuning (PEFT) methods that update only a small subset of parameters, resource-constrained mobile devices cannot afford them. In this paper, we propose MobiLLM to enable memory-efficient transformer LLM fine-tuning on a mobile device via server-assisted side-tuning. Particularly, MobiLLM allows the resource-constrained mobile device to retain merely a frozen backbone model, while offloading the memory and computation-intensive backpropagation of a trainable side-network to a high-performance server. Unlike existing fine-tuning methods that keep trainable parameters inside the frozen backbone, MobiLLM separates a set of parallel adapters from the backbone to create a backpropagation bypass, involving only one-way activation transfers from the mobile device to the server with low-width quantization during forward propagation. In this way, the data never leaves the mobile device while the device can remove backpropagation through the local backbone model and its forward propagation can be paralyzed with the server-side execution. Thus, MobiLLM preserves data privacy while significantly reducing the memory and computational burdens for LLM fine-tuning. Through extensive experiments, we demonstrate that MobiLLM can enable a resource-constrained mobile device, even a CPU-only one, to fine-tune LLMs and significantly reduce convergence time and memory usage.
Abstract（参考訳）: モバイルデバイスにおけるLarge Language Model(LLM)とその潜在的なアプリケーションは、決して魅了されない。しかし、デバイス上でのLCMの微調整は、非常に高いメモリ要求と遅いトレーニング速度のために大きな課題となる。パラメータのサブセットのみを更新するパラメータ効率のよい微細チューニング(PEFT)手法であっても、リソース制約のあるモバイルデバイスはそれを行うことができない。本稿では,メモリ効率の高いトランスフォーマーLLMをサーバ支援サイドチューニングによりモバイルデバイス上で微調整できるMobiLLMを提案する。特にMobiLLMは、トレーニング可能なサイドネットワークのメモリと計算集約的なバックプロパゲーションをハイパフォーマンスサーバにオフロードしながら、リソースに制約のあるモバイルデバイスが単に冷凍バックボーンモデルを保持することを可能にする。トレーニング可能なパラメータを冷凍バックボーン内に保持する既存の微調整方法とは異なり、MobiLLMはバックボーンから並列アダプタのセットを分離してバックプロパゲーションバイパスを生成する。このようにして、データはモバイルデバイスを離れることはないが、デバイスはローカルのバックボーンモデルを通してバックプロパゲーションを取り除き、その転送はサーバサイドの実行で麻痺させることができる。したがって、MobiLLMはデータのプライバシを保ちながら、LLMの微調整のメモリと計算負荷を大幅に削減する。広範にわたる実験により, MobiLLMは資源に制約のあるモバイルデバイス, あるいはCPUのみのモバイルデバイスでも, LLMを微調整し, コンバージェンス時間とメモリ使用量を大幅に削減できることを示した。

関連論文リスト

PAE MobiLLM: Privacy-Aware and Efficient LLM Fine-Tuning on the Mobile Device via Additive Side-Tuning [23.15414219447242]
PAE MobiLLM は、プライバシを意識した効率的な LLM FT メソッドであり、サーバアシストの付加的なサイドチューニングによってモバイルデバイスにデプロイできる。サーバ側でアクティベーションキャッシュを統合することで、サーバが過去のアクティベーションを再利用し、繰り返し行われるデータサンプルのために、モバイルデバイスがフォワードパスを計算しないようにする。最後に、PAE MobiLLMは追加のアダプタサイドネットワーク設計を導入し、デバイス定義の予測差に基づいて、サーバがアダプタモジュールをトレーニングする。
論文参考訳（メタデータ） (2025-07-01T22:27:21Z)
SplitFrozen: Split Learning with Device-side Model Frozen for Fine-Tuning LLM on Heterogeneous Resource-Constrained Devices [15.790762116995845]
プライベート、オンデバイスデータに基づく細調整された大型言語モデル(LLM)は、パーソナライズされたパーソナライズされたAIエージェントを強化することができる。本稿では,資源制約のあるエッジデバイス上で効率的な微調整を可能にする分割学習フレームワークSplitFrozenを提案する。 MRPC、MNLIマッチング、SST-2データセットによるGPT-2の実験では、極めて不均衡なデータの下で、SplitFrozenはFedLoRAとSplitLoRAの精度を69.4%上回っている。
論文参考訳（メタデータ） (2025-03-23T08:03:44Z)
PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms [11.87161637895978]
ユーザがモバイルデバイス上で大きな言語モデルを評価することができる軽量でオールインワンな自動ベンチマークフレームワークを紹介します。ハードウェア能力の異なる複数のモバイルプラットフォームに対して、様々な量子化構成(重みとアクティベーションの両方)の異なる様々な人気のあるLCMのベンチマークを提供する。
論文参考訳（メタデータ） (2024-10-05T03:37:07Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
PocketLLM: Enabling On-Device Fine-Tuning for Personalized LLMs [5.063806958859058]
モバイルデバイスでは、毎日生成される貴重な非パブリックなデータが、ローカルに微調整されたパーソナライズされたLDMにとって大きな約束である。本稿では,メモリ制限されたモバイルデバイス上でもLCMのデバイス上での微調整を可能にするために,デリバティブフリー最適化手法を提案する。実証実験の結果、RoBERTa-largeモデルとOPT-1.3Bは、約4GBと6.5GBのメモリを使用してOPPO Reno 6スマートフォン上でローカルに微調整できることが示された。
論文参考訳（メタデータ） (2024-07-01T07:26:56Z)
FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文参考訳（メタデータ） (2024-06-25T16:45:47Z)
Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity [66.67596152389591]
ゼロ階最適化(ZO)は、微調整された大規模言語モデルのためのメモリ効率の高い戦略である。本研究では,ZO を用いた LLM パラメータの極小サブセットの微調整の実現可能性について検討した。この結果から,ZO を用いた LLM の微調整パラメータ 0.1% は,ZO の微調整性能より優れることが示された。
論文参考訳（メタデータ） (2024-06-05T04:07:35Z)
On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。 LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文参考訳（メタデータ） (2024-03-03T03:27:07Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。 FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文参考訳（メタデータ） (2023-12-11T13:03:21Z)
FwdLLM: Efficient FedLLM using Forward Gradient [8.520892692833293]
FwdLLMはFedLLMの効率を高めるために設計された革新的なFLプロトコルである。 FwdLLMはバックプロパゲーション(BP)なしのトレーニング手法を採用しており、デバイスは摂動推論のみを実行する必要がある。
論文参考訳（メタデータ） (2023-08-26T14:36:30Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。