論文の概要: PrivateLoRA For Efficient Privacy Preserving LLM
- arxiv url: http://arxiv.org/abs/2311.14030v1
- Date: Thu, 23 Nov 2023 14:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:31:15.793004
- Title: PrivateLoRA For Efficient Privacy Preserving LLM
- Title(参考訳): 効率的なプライバシー保護のためのPrivateLoRA
- Authors: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
- Abstract要約: 本稿では,エッジデバイス上でプライバシに敏感な計算を分散し,クラウド上で共有する,新たなLarge Language Model(LLM)サービスパラダイムを提案する。
私たちの中心となるイノベーションであるPrivateLoRAは、残余のアクティベーションの低いレベルを活用することで、困難な通信オーバーヘッドに対処しています。
標準的な5Gネットワークの下では、PrivateLoRAは、7Bモデルのデバイスのみのソリューションの300%以上、33BモデルのA100 GPUの80%以上のスループットを実現している。
- 参考スコア(独自算出の注目度): 20.750808913757396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End users face a choice between privacy and efficiency in current Large
Language Model (LLM) service paradigms. In cloud-based paradigms, users are
forced to compromise data locality for generation quality and processing speed.
Conversely, edge device paradigms maintain data locality but fail to deliver
satisfactory performance. In this work, we propose a novel LLM service paradigm
that distributes privacy-sensitive computation on edge devices and shared
computation in the cloud. Only activations are transmitted between the central
cloud and edge devices to ensure data locality. Our core innovation,
PrivateLoRA, addresses the challenging communication overhead by exploiting the
low rank of residual activations, achieving over 95% communication reduction.
Consequently, PrivateLoRA effectively maintains data locality and is extremely
resource efficient. Under standard 5G networks, PrivateLoRA achieves throughput
over 300% of device-only solutions for 7B models and over 80% of an A100 GPU
for 33B models. PrivateLoRA also provides tuning performance comparable to LoRA
for advanced personalization. Our approach democratizes access to
state-of-the-art generative AI for edge devices, paving the way for more
tailored LLM experiences for the general public. To our knowledge, our proposed
framework is the first efficient and privacy-preserving LLM solution in the
literature.
- Abstract(参考訳): エンドユーザは、現在のLarge Language Model(LLM)サービスのパラダイムにおいて、プライバシと効率の選択肢に直面します。
クラウドベースのパラダイムでは、ユーザは生成品質と処理速度のためにデータのローカリティを妥協せざるを得ない。
逆にエッジデバイスのパラダイムはデータのローカリティを維持しているが、十分なパフォーマンスを提供できない。
本研究では,エッジデバイス上にプライバシに敏感な計算を分散し,クラウド上での共有計算を行うLLMサービスパラダイムを提案する。
アクティベーションだけが中央クラウドとエッジデバイス間で送信され、データのローカリティが保証される。
私たちの中心となるイノベーションであるPrivateLoRAは、残余アクティベーションの低いレベルを活用し、95%以上の通信削減を実現することで、困難な通信オーバーヘッドに対処しています。
その結果、PrivateLoRAはデータのローカリティを効果的に維持し、非常にリソース効率が高い。
標準的な5gネットワークでは、privateloraは7bモデルではデバイスのみのソリューションの300%、33bモデルではa100 gpuの80%以上のスループットを実現している。
PrivateLoRAはまた、高度なパーソナライゼーションのためのLoRAに匹敵するチューニングパフォーマンスを提供する。
我々のアプローチは、最先端デバイスのための最先端のジェネレーティブAIへのアクセスを民主化し、一般向けによりカスタマイズされたLLM体験を実現する。
我々の知る限り、我々の提案するフレームワークは文献における最初の効率的かつプライバシー保護のLLMソリューションである。
関連論文リスト
- TinyML NLP Approach for Semantic Wireless Sentiment Classification [49.801175302937246]
本稿では,エネルギー効率のよいプライバシ保護型小型機械学習(MLTiny)方式としてスプリットラーニング(SL)を導入する。
その結果,SLは高い精度を維持しながら処理能力とCO2排出量を低減し,FLは効率とプライバシのバランスのとれた妥協を提供することがわかった。
論文 参考訳(メタデータ) (2024-11-09T21:26:59Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大規模言語モデル(LLM)は、エンドユーザに人間のような知性を提供することで、驚くべき成功を収めた。
LLMは高い計算資源を必要としており、様々な性能目標を満たすためにそれらをデプロイすることは困難である。
CE-CoLLMは,エッジのエンドユーザに対して,効率的かつ適応的なLLM推論をサポートする,新しいクラウドエッジコラボレーションフレームワークである。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - Pluto and Charon: A Time and Memory Efficient Collaborative Edge AI Framework for Personal LLMs Fine-Tuning [13.26886445965894]
Pluto and Charon(PAC)は、個人用LLMの微調整のための、時間とメモリ効率のよい協調エッジAIフレームワークである。
PACは、パラメータ、時間、メモリの点で効率的なパーソナルLLMの微調整技術を実装している。
プロトタイプ実装に基づく大規模な評価は、PACが最先端のアプローチを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-20T11:30:12Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - Mobile Edge Intelligence for Large Language Models: A Contemporary Survey [32.22789677882933]
モバイルエッジインテリジェンス(MEI)は、クラウドコンピューティングに対するプライバシとレイテンシを改善した、モバイルネットワークのエッジ内のAI機能を提供する。
MEIはデバイス上のAIとクラウドベースのAIの間に位置し、無線通信とエンドユーザよりも強力なコンピューティングリソースを備えている。
本稿では,LLMのMEI活用に関する現代の調査を紹介する。
論文 参考訳(メタデータ) (2024-07-09T13:47:05Z) - PermLLM: Private Inference of Large Language Models within 3 Seconds under WAN [19.014325509263536]
ChatGPTは、大きな言語モデル(LLM)時代の到来を示す。
PermLLM は ChatGLM-6B モデルを約3s/token の速度で2パーティのプライベート推論を行う。
論文 参考訳(メタデータ) (2024-05-29T04:06:50Z) - DLoRA: Distributed Parameter-Efficient Fine-Tuning Solution for Large Language Model [17.688874383440208]
DLoRAと呼ばれる分散パラメータ効率の微調整フレームワークを提案する。
DLoRAはスケーラブルなPEFT操作をクラウドとユーザデバイス間で協調的に実行可能にする。
DLoRAは、ユーザのデバイス上での計算と通信の負荷を大幅に低減し、精度とプライバシ保護に優れることを示す。
論文 参考訳(メタデータ) (2024-04-08T04:14:02Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。