論文の概要: Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity
- arxiv url: http://arxiv.org/abs/2505.07239v1
- Date: Mon, 12 May 2025 05:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.263664
- Title: Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity
- Title(参考訳): Comet: アクティベーション空間の予測による大規模言語モデルのプライベート推論の高速化
- Authors: Guang Yan, Yuhui Zhang, Zimu Guo, Lutan Zhao, Xiaojun Chen, Chen Wang, Wenhao Wang, Dan Meng, Rui Hou,
- Abstract要約: セキュアなマルチパーティ計算(MPC)は、LLM推論におけるプライバシを保護するための有望なソリューションである。
MPCはサーバ間通信が頻繁に必要であり、高い性能のオーバーヘッドを引き起こす。
本研究では,活性化出力の空間分布を予測するために,高精度かつ高速な予測器を用いた効率的なプライベート推論システムCometを提案する。
Comet は 1.87x-2.63x のスピードアップと 1.94x-2.64x 通信の削減を実現している。
- 参考スコア(独自算出の注目度): 21.74620410396962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing use of large language models (LLMs) hosted on cloud platforms to offer inference services, privacy concerns about the potential leakage of sensitive information are escalating. Secure multi-party computation (MPC) is a promising solution to protect the privacy in LLM inference. However, MPC requires frequent inter-server communication, causing high performance overhead. Inspired by the prevalent activation sparsity of LLMs, where most neuron are not activated after non-linear activation functions, we propose an efficient private inference system, Comet. This system employs an accurate and fast predictor to predict the sparsity distribution of activation function output. Additionally, we introduce a new private inference protocol. It efficiently and securely avoids computations involving zero values by exploiting the spatial locality of the predicted sparse distribution. While this computation-avoidance approach impacts the spatiotemporal continuity of KV cache entries, we address this challenge with a low-communication overhead cache refilling strategy that merges miss requests and incorporates a prefetching mechanism. Finally, we evaluate Comet on four common LLMs and compare it with six state-of-the-art private inference systems. Comet achieves a 1.87x-2.63x speedup and a 1.94x-2.64x communication reduction.
- Abstract(参考訳): クラウドプラットフォームにホストされる大規模言語モデル(LLM)が推論サービスを提供するようになったことで、機密情報の漏洩に関するプライバシー上の懸念がエスカレートしている。
セキュアなマルチパーティ計算(MPC)は、LLM推論におけるプライバシを保護するための有望なソリューションである。
しかし、MPCはサーバ間通信を頻繁に必要としており、高い性能のオーバーヘッドを引き起こす。
非線形活性化関数の後にほとんどのニューロンが活性化されないLLMの活性化空間に着想を得て,効率的なプライベート推論システムであるCometを提案する。
本システムは,活性化関数出力の空間分布を予測するために,高精度かつ高速な予測器を用いる。
さらに,新たなプライベート推論プロトコルを導入する。
予測されたスパース分布の空間的局所性を利用してゼロ値を含む計算を効率的かつ安全に回避する。
この計算回避アプローチはKVキャッシュエントリの時空間連続性に影響を与えるが、この課題に対処するためには、ミスリクエストをマージしてプレフェッチ機構を組み込む低通信オーバーヘッドキャッシュ補充戦略を用いる。
最後に、コメットを4つの共通LLM上で評価し、6つの最先端のプライベート推論システムと比較する。
Comet は 1.87x-2.63x のスピードアップと 1.94x-2.64x 通信の削減を実現している。
関連論文リスト
- PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders [8.483679748399037]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示したが、個人識別情報(PII)を記憶・漏洩することによりプライバシーリスクを生じさせる。
差分プライバシーやニューロンレベルの介入のような既存の緩和戦略は、しばしばモデルユーティリティを劣化させたり、リークを効果的に防いだりしない。
性能を維持しながらPIIリークを識別・緩和するために解釈可能性技術を活用する,新たなプライバシ保護フレームワークであるPrivacyScalpelを紹介する。
論文 参考訳(メタデータ) (2025-03-14T09:31:01Z) - PriFFT: Privacy-preserving Federated Fine-tuning of Large Language Models via Function Secret Sharing [20.148411915688175]
微調整された大規模言語モデル(LLM)は、機密性のあるトレーニングデータを公開するリスクにより、プライバシ上の懸念を提起する。
近年の研究では、FLのモデル更新から敵がまだプライベート情報を推測できることが示されている。
プライバシ保護フェデレーションファインチューニング機構であるPriFFTを提案する。
論文 参考訳(メタデータ) (2025-03-05T03:41:57Z) - The Early Bird Catches the Leak: Unveiling Timing Side Channels in LLM Serving Systems [26.528288876732617]
新たなタイミング側チャネルのセットを利用して、機密システムプロンプトと他のユーザによって発行された情報を推測することができる。
これらの脆弱性は、従来のコンピューティングシステムで観察されたセキュリティ上の問題と類似している。
キャッシュ内の共有プロンプトプレフィックスを効率的に回収するトークン・バイ・トークン検索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-30T06:55:00Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - DPZero: Private Fine-Tuning of Language Models without Backpropagation [49.365749361283704]
DPZeroは、ほぼ次元に依存しない新しいゼロオーダーアルゴリズムである。
DPZeroのメモリ効率は、いくつかの下流タスクでプライベートに微調整されたRoBERTaとOPTで実証される。
論文 参考訳(メタデータ) (2023-10-14T18:42:56Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Over-the-Air Federated Learning with Privacy Protection via Correlated
Additive Perturbations [57.20885629270732]
我々は、複数のユーザ/エージェントからエッジサーバへの勾配更新をOtA(Over-the-Air)で送信することで、無線フェデレーション学習のプライバシー面を考察する。
従来の摂動に基づく手法は、トレーニングの精度を犠牲にしてプライバシー保護を提供する。
本研究では,エッジサーバにおけるプライバシリークの最小化とモデル精度の低下を目標とする。
論文 参考訳(メタデータ) (2022-10-05T13:13:35Z) - On Differential Privacy for Federated Learning in Wireless Systems with
Multiple Base Stations [90.53293906751747]
複数の基地局とセル間干渉を持つ無線システムにおける連合学習モデルを考える。
本稿では,学習過程の収束挙動を,その最適性ギャップの上限を導出することによって示す。
提案するスケジューラは,ランダムなスケジューラと比較して予測平均精度を向上する。
論文 参考訳(メタデータ) (2022-08-25T03:37:11Z) - Wireless Federated Learning with Limited Communication and Differential
Privacy [21.328507360172203]
本稿では,空力計算(AirComp)に基づくフェデレーション学習(FL)モデルにおいて,リモートユーザにおけるローカルデータセットの効率的な通信と差分プライバシー(DP)における次元性低減の役割について検討する。
論文 参考訳(メタデータ) (2021-06-01T15:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。