Fugu-MT 論文翻訳(概要): PrivateLoRA For Efficient Privacy Preserving LLM

論文の概要: PrivateLoRA For Efficient Privacy Preserving LLM

arxiv url: http://arxiv.org/abs/2311.14030v1
Date: Thu, 23 Nov 2023 14:36:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 23:31:15.793004
Title: PrivateLoRA For Efficient Privacy Preserving LLM
Title（参考訳）: 効率的なプライバシー保護のためのPrivateLoRA
Authors: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
Abstract要約: 本稿では,エッジデバイス上でプライバシに敏感な計算を分散し,クラウド上で共有する,新たなLarge Language Model(LLM)サービスパラダイムを提案する。私たちの中心となるイノベーションであるPrivateLoRAは、残余のアクティベーションの低いレベルを活用することで、困難な通信オーバーヘッドに対処しています。標準的な5Gネットワークの下では、PrivateLoRAは、7Bモデルのデバイスのみのソリューションの300%以上、33BモデルのA100 GPUの80%以上のスループットを実現している。
参考スコア（独自算出の注目度）: 20.750808913757396
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End users face a choice between privacy and efficiency in current Large Language Model (LLM) service paradigms. In cloud-based paradigms, users are forced to compromise data locality for generation quality and processing speed. Conversely, edge device paradigms maintain data locality but fail to deliver satisfactory performance. In this work, we propose a novel LLM service paradigm that distributes privacy-sensitive computation on edge devices and shared computation in the cloud. Only activations are transmitted between the central cloud and edge devices to ensure data locality. Our core innovation, PrivateLoRA, addresses the challenging communication overhead by exploiting the low rank of residual activations, achieving over 95% communication reduction. Consequently, PrivateLoRA effectively maintains data locality and is extremely resource efficient. Under standard 5G networks, PrivateLoRA achieves throughput over 300% of device-only solutions for 7B models and over 80% of an A100 GPU for 33B models. PrivateLoRA also provides tuning performance comparable to LoRA for advanced personalization. Our approach democratizes access to state-of-the-art generative AI for edge devices, paving the way for more tailored LLM experiences for the general public. To our knowledge, our proposed framework is the first efficient and privacy-preserving LLM solution in the literature.
Abstract（参考訳）: エンドユーザは、現在のLarge Language Model(LLM)サービスのパラダイムにおいて、プライバシと効率の選択肢に直面します。クラウドベースのパラダイムでは、ユーザは生成品質と処理速度のためにデータのローカリティを妥協せざるを得ない。逆にエッジデバイスのパラダイムはデータのローカリティを維持しているが、十分なパフォーマンスを提供できない。本研究では,エッジデバイス上にプライバシに敏感な計算を分散し,クラウド上での共有計算を行うLLMサービスパラダイムを提案する。アクティベーションだけが中央クラウドとエッジデバイス間で送信され、データのローカリティが保証される。私たちの中心となるイノベーションであるPrivateLoRAは、残余アクティベーションの低いレベルを活用し、95%以上の通信削減を実現することで、困難な通信オーバーヘッドに対処しています。その結果、PrivateLoRAはデータのローカリティを効果的に維持し、非常にリソース効率が高い。標準的な5gネットワークでは、privateloraは7bモデルではデバイスのみのソリューションの300%、33bモデルではa100 gpuの80%以上のスループットを実現している。 PrivateLoRAはまた、高度なパーソナライゼーションのためのLoRAに匹敵するチューニングパフォーマンスを提供する。我々のアプローチは、最先端デバイスのための最先端のジェネレーティブAIへのアクセスを民主化し、一般向けによりカスタマイズされたLLM体験を実現する。我々の知る限り、我々の提案するフレームワークは文献における最初の効率的かつプライバシー保護のLLMソリューションである。

関連論文リスト

CoSteer: Collaborative Decoding-Time Personalization via Local Delta Steering [68.91862701376155]
CoSteerは、ローカライズされたデルタステアリングを通じてデコード時のパーソナライズを可能にする、新しいコラボレーティブフレームワークである。トークンレベルの最適化をオンライン学習問題として定式化し、ローカルデルタベクトルがリモートLLMのロジットを動的に調整する。このアプローチは、生のデータや中間ベクトルではなく、最後のステアリングトークンのみを送信することで、プライバシを保護します。
論文参考訳（メタデータ） (2025-07-07T08:32:29Z)
FedShield-LLM: A Secure and Scalable Federated Fine-Tuned Large Language Model [0.48342038441006796]
Federated Learning (FL)は、LLM(Large Language Models)のトレーニングと微調整のための分散フレームワークを提供する。 FLはプライバシとセキュリティの懸念に対処し、LLMの相当な計算要求に関連する課題をナビゲートする。ローランド適応 (LoRA) パラメータに対して, 完全同型暗号化 (FHE) を用いたプルーニングを用いた新しいFedShield-LLMを提案する。
論文参考訳（メタデータ） (2025-06-06T00:05:05Z)
PC-MoE: Memory-Efficient and Privacy-Preserving Collaborative Training for Mixture-of-Experts LLMs [56.04036826558497]
プライバシー保護型コラボレーション・オブ・エクササイズ(PC-MoE)を紹介する。設計上、PC-MoEは分散計算の強みと強い機密性の保証を相乗的に組み合わせている。完全に集中したモデルのパフォーマンスと収束率とほぼ一致(時には超える)し、70%近いピークのGPURAMの削減を享受し、再構築攻撃に対して完全に堅牢である。
論文参考訳（メタデータ） (2025-06-03T15:00:18Z)
PWC-MoE: Privacy-Aware Wireless Collaborative Mixture of Experts [59.5243730853157]
クラウドサーバにホストされる大規模言語モデル(LLM)は、ローカルデバイス上の計算とストレージの負担を軽減するが、プライバシの懸念を高める。小規模言語モデル(SLM)は、ローカルで実行されるためプライバシーが向上するが、複雑なタスクではパフォーマンスが制限される。帯域幅制約下での計算コスト,性能,プライバシ保護のバランスをとるために,プライバシを意識したPWC-MoE(PWC-MoE)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-13T16:27:07Z)
LSRP: A Leader-Subordinate Retrieval Framework for Privacy-Preserving Cloud-Device Collaboration [43.115594451678255]
クラウドとデバイス間のコラボレーションは、公開ユーザクエリの処理にオンプレミスのLarge Language Models(LLM)、プライベートユーザデータの処理にSLM(On-device Small Language Models)を活用する。既存のアプローチは、クラウド上のLLMのスケーラブルな問題解決能力を十分に活用できないことが多い。プライバシ保護型クラウドデバイスコラボレーション(LSRP)のためのリーダ・サブオーディネート検索フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-08T08:06:34Z)
Prada: Black-Box LLM Adaptation with Private Data on Resource-Constrained Devices [16.500721672193762]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスに格納されたプライベートデータセットを使用して、特別なドメインに適応することができる。プライバシ保護と効率的なブラックボックスLLM適応システムであるPradaを提案する。 Pradaは、集中的な微調整手法に匹敵するパフォーマンスを実現し、計算オーバーヘッドを最大60%削減し、通信コストを最大80%削減する。
論文参考訳（メタデータ） (2025-03-19T06:38:51Z)
A Hybrid Swarm Intelligence Approach for Optimizing Multimodal Large Language Models Deployment in Edge-Cloud-based Federated Learning Environments [10.72166883797356]
Federated Learning (FL)、Multimodal Large Language Models (MLLM)、エッジ・クラウド・コンピューティングは分散およびリアルタイムのデータ処理を可能にする。そこで本研究では,MLLMを十分なリソースとバッテリ寿命を備えたエッジデバイスにデプロイするハイブリッドフレームワークを提案する。実験の結果,提案手法はシステム性能を大幅に向上し,92%の精度を実現し,通信コストを30%削減し,クライアントの参加性を高めた。
論文参考訳（メタデータ） (2025-02-04T03:03:24Z)
TinyML NLP Approach for Semantic Wireless Sentiment Classification [49.801175302937246]
本稿では,エネルギー効率のよいプライバシ保護型小型機械学習(MLTiny)方式としてスプリットラーニング(SL)を導入する。その結果,SLは高い精度を維持しながら処理能力とCO2排出量を低減し,FLは効率とプライバシのバランスのとれた妥協を提供することがわかった。
論文参考訳（メタデータ） (2024-11-09T21:26:59Z)
CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大規模言語モデル(LLM)は、エンドユーザに人間のような知性を提供することで、驚くべき成功を収めた。 LLMは高い計算資源を必要としており、様々な性能目標を満たすためにそれらをデプロイすることは困難である。 CE-CoLLMは,エッジのエンドユーザに対して,効率的かつ適応的なLLM推論をサポートする,新しいクラウドエッジコラボレーションフレームワークである。
論文参考訳（メタデータ） (2024-11-05T06:00:27Z)
Pluto and Charon: A Time and Memory Efficient Collaborative Edge AI Framework for Personal LLMs Fine-Tuning [13.26886445965894]
Pluto and Charon(PAC)は、個人用LLMの微調整のための、時間とメモリ効率のよい協調エッジAIフレームワークである。 PACは、パラメータ、時間、メモリの点で効率的なパーソナルLLMの微調整技術を実装している。プロトタイプ実装に基づく大規模な評価は、PACが最先端のアプローチを著しく上回っていることを示している。
論文参考訳（メタデータ） (2024-08-20T11:30:12Z)
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文参考訳（メタデータ） (2024-08-07T04:20:28Z)
Mobile Edge Intelligence for Large Language Models: A Contemporary Survey [32.22789677882933]
モバイルエッジインテリジェンス(MEI)は、クラウドコンピューティングに対するプライバシとレイテンシを改善した、モバイルネットワークのエッジ内のAI機能を提供する。 MEIはデバイス上のAIとクラウドベースのAIの間に位置し、無線通信とエンドユーザよりも強力なコンピューティングリソースを備えている。本稿では,LLMのMEI活用に関する現代の調査を紹介する。
論文参考訳（メタデータ） (2024-07-09T13:47:05Z)
PermLLM: Private Inference of Large Language Models within 3 Seconds under WAN [19.014325509263536]
ChatGPTは、大きな言語モデル(LLM)時代の到来を示す。 PermLLM は ChatGLM-6B モデルを約3s/token の速度で2パーティのプライベート推論を行う。
論文参考訳（メタデータ） (2024-05-29T04:06:50Z)
DLoRA: Distributed Parameter-Efficient Fine-Tuning Solution for Large Language Model [17.688874383440208]
DLoRAと呼ばれる分散パラメータ効率の微調整フレームワークを提案する。 DLoRAはスケーラブルなPEFT操作をクラウドとユーザデバイス間で協調的に実行可能にする。 DLoRAは、ユーザのデバイス上での計算と通信の負荷を大幅に低減し、精度とプライバシ保護に優れることを示す。
論文参考訳（メタデータ） (2024-04-08T04:14:02Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文参考訳（メタデータ） (2023-10-11T15:56:00Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Theoretically Principled Federated Learning for Balancing Privacy and Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文参考訳（メタデータ） (2023-05-24T13:44:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。