論文の概要: Pluto and Charon: A Time and Memory Efficient Collaborative Edge AI Framework for Personal LLMs Fine-Tuning
- arxiv url: http://arxiv.org/abs/2408.10746v1
- Date: Tue, 20 Aug 2024 11:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:04:52.012058
- Title: Pluto and Charon: A Time and Memory Efficient Collaborative Edge AI Framework for Personal LLMs Fine-Tuning
- Title(参考訳): PlutoとCharon:パーソナルLLMのための時間とメモリ効率の良い協調エッジAIフレームワーク
- Authors: Bei Ouyang, Shengyuan Ye, Liekang Zeng, Tianyi Qian, Jingyi Li, Xu Chen,
- Abstract要約: Pluto and Charon(PAC)は、個人用LLMの微調整のための、時間とメモリ効率のよい協調エッジAIフレームワークである。
PACは、パラメータ、時間、メモリの点で効率的なパーソナルLLMの微調整技術を実装している。
プロトタイプ実装に基づく大規模な評価は、PACが最先端のアプローチを著しく上回っていることを示している。
- 参考スコア(独自算出の注目度): 13.26886445965894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have unlocked a plethora of powerful applications at the network edge, such as intelligent personal assistants. Data privacy and security concerns have prompted a shift towards edge-based fine-tuning of personal LLMs, away from cloud reliance. However, this raises issues of computational intensity and resource scarcity, hindering training efficiency and feasibility. While current studies investigate parameter-efficient fine-tuning (PEFT) techniques to mitigate resource constraints, our analysis indicates that these techniques are not sufficiently resource-efficient for edge devices. To tackle these challenges, we propose Pluto and Charon (PAC), a time and memory efficient collaborative edge AI framework for personal LLMs fine-tuning. PAC breaks the resource wall of personal LLMs fine-tuning with a sophisticated algorithm-system co-design. (1) Algorithmically, PAC implements a personal LLMs fine-tuning technique that is efficient in terms of parameters, time, and memory. It utilizes Parallel Adapters to circumvent the need for a full backward pass through the LLM backbone. Additionally, an activation cache mechanism further streamlining the process by negating the necessity for repeated forward passes across multiple epochs. (2) Systematically, PAC leverages edge devices in close proximity, pooling them as a collective resource for in-situ personal LLMs fine-tuning, utilizing a hybrid data and pipeline parallelism to orchestrate distributed training. The use of the activation cache eliminates the need for forward pass through the LLM backbone,enabling exclusive fine-tuning of the Parallel Adapters using data parallelism. Extensive evaluation based on prototype implementation demonstrates that PAC remarkably outperforms state-of-the-art approaches, achieving up to 8.64x end-to-end speedup and up to 88.16% reduction in memory footprint.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インテリジェントなパーソナルアシスタントなど、ネットワークエッジにおける強力なアプリケーションの多くをアンロックした。
データプライバシとセキュリティの懸念が、クラウド依存から離れて、エッジベースのパーソナルLLMの微調整へと移行した。
しかし、これは計算強度と資源不足の問題を提起し、訓練効率と実現可能性を妨げる。
本研究は,資源制約を軽減するためのパラメータ効率細調整(PEFT)技術について検討するものであるが,本手法はエッジデバイスに十分な資源効率が得られていないことを示す。
これらの課題に対処するために、Pluto and Charon(PAC)を提案する。
PACは、洗練されたアルゴリズム-システム共設計により、パーソナルLLMのリソース壁を細調整する。
1) アルゴリズム的にPACは,パラメータ,時間,メモリの点で効率のよいパーソナルLCMの微調整技術を実装している。
パラレルアダプタを使用して、LLMバックボーンを完全な後方通過する必要を回避している。
さらに、複数のエポックにまたがる繰り返しフォワードパスの必要性を否定することで、プロセスをさらに合理化するアクティベーションキャッシュ機構である。
2) PACはエッジデバイスを近接的に活用し,個人用LLMの微調整のための集合資源としてプールし,ハイブリッドデータとパイプライン並列性を利用して分散トレーニングを編成する。
アクティベーションキャッシュを使用することで、LLMバックボーンをフォワードパスする必要がなくなり、データ並列性を使用したParallel Adapterの排他的な微調整が実現される。
プロトタイプ実装に基づく大規模な評価により、PACは最先端のアプローチを著しく上回り、最大8.64倍のエンドツーエンドのスピードアップと88.16%のメモリフットプリントの削減を実現している。
関連論文リスト
- Split Federated Learning Over Heterogeneous Edge Devices: Algorithm and Optimization [7.013344179232109]
Split Learning(SL)は、リソース制約のあるデバイスが生データを共有せずにモデルをトレーニングできるようにする、有望なコラボレーティブ機械学習アプローチである。
現在のSLアルゴリズムは、トレーニング効率の限界に直面し、長時間のレイテンシに悩まされている。
本稿では、リソース制約のあるクライアントが、パーソナライズされたクライアントサイドモデルを並列にトレーニングできる、異種分散フェデレーションラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-21T07:46:01Z) - Model Partition and Resource Allocation for Split Learning in Vehicular Edge Networks [24.85135243655983]
本稿では,これらの課題に対処する新しいU字型分割学習(U-SFL)フレームワークを提案する。
U-SFLは、生のデータとラベルの両方をVU側に置くことで、プライバシー保護を強化することができる。
通信効率を最適化するために,送信データの次元を著しく低減する意味認識型自動エンコーダ(SAE)を導入する。
論文 参考訳(メタデータ) (2024-11-11T07:59:13Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大規模言語モデル(LLM)は、エンドユーザに人間のような知性を提供することで、驚くべき成功を収めた。
LLMは高い計算資源を必要としており、様々な性能目標を満たすためにそれらをデプロイすることは困難である。
CE-CoLLMは,エッジのエンドユーザに対して,効率的かつ適応的なLLM推論をサポートする,新しいクラウドエッジコラボレーションフレームワークである。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z) - Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。