論文の概要: MPC-Minimized Secure LLM Inference
- arxiv url: http://arxiv.org/abs/2408.03561v1
- Date: Wed, 7 Aug 2024 05:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:43:46.314063
- Title: MPC-Minimized Secure LLM Inference
- Title(参考訳): MPC最小化セキュアLLM推論
- Authors: Deevashwer Rathee, Dacheng Li, Ion Stoica, Hao Zhang, Raluca Popa,
- Abstract要約: Marill は LLM の微調整に適応してセキュアな推論における MPC の使用を最小限にするフレームワークである。
標準的な微調整と比較して、Marillは3.6-11.3倍のランタイムと2.4-6.9倍の通信性能を持つ。
- 参考スコア(独自算出の注目度): 23.719628611122996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many inference services based on large language models (LLMs) pose a privacy concern, either revealing user prompts to the service or the proprietary weights to the user. Secure inference offers a solution to this problem through secure multi-party computation (MPC), however, it is still impractical for modern LLM workload due to the large overhead imposed by MPC. To address this overhead, we propose Marill, a framework that adapts LLM fine-tuning to minimize MPC usage during secure inference. Marill introduces high-level architectural changes during fine-tuning that significantly reduce the number of expensive operations needed within MPC during inference, by removing some and relocating others outside MPC without compromising security. As a result, Marill-generated models are more efficient across all secure inference protocols and our approach complements MPC-friendly approximations for such operations. Compared to standard fine-tuning, Marill results in 3.6-11.3x better runtime and 2.4-6.9x better communication during secure inference across various MPC settings, while typically preserving over 90% performance across downstream tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく多くの推論サービスは、サービスへのユーザのプロンプトや、ユーザに対するプロプライエタリな重みを明らかにすることによって、プライバシ上の懸念を生じさせる。
セキュア推論は、セキュアなマルチパーティ計算(MPC)を通じてこの問題に対する解決策を提供するが、MPCによって課される大きなオーバーヘッドのため、現代のLLMワークロードには実用的ではない。
このオーバーヘッドに対処するため、セキュアな推論におけるMPC使用量を最小限に抑えるためにLLM微調整を施したフレームワークであるMarillを提案する。
Marill氏は、微調整中に高いレベルのアーキテクチャ変更を導入し、推論中にMPC内で必要な高価な操作の数を大幅に減らした。
その結果,マリル生成モデルはすべてのセキュアな推論プロトコルにおいてより効率的であり,本手法はMPCフレンドリな近似を補完する。
標準的な微調整と比較すると、Marillは3.6-11.3倍のランタイムと2.4-6.9倍の通信能力を持つ。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Low-Latency Privacy-Preserving Deep Learning Design via Secure MPC [31.35072624488929]
セキュアなマルチパーティ計算(MPC)は、プライベート情報をリークすることなく、複数のパーティ間のプライバシ保護計算を容易にする。
本研究は、MPCプロトコルの実行中に不要な通信ラウンドを減らす、低レイテンシな秘密共有ベースのMPC設計を提案する。
論文 参考訳(メタデータ) (2024-07-24T07:01:21Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - PermLLM: Private Inference of Large Language Models within 3 Seconds under WAN [19.014325509263536]
ChatGPTは、大きな言語モデル(LLM)時代の到来を示す。
PermLLM は ChatGLM-6B モデルを約3s/token の速度で2パーティのプライベート推論を行う。
論文 参考訳(メタデータ) (2024-05-29T04:06:50Z) - Ditto: Quantization-aware Secure Inference of Transformers upon MPC [5.161569981377991]
我々は、より効率的な量子化対応セキュアトランスフォーマー推論を実現するために、Dittoというフレームワークを提案する。
本稿では,Bert モデルと GPT2 モデルを用いて,Ditto の性能評価を行う。
その結果、DittoはMPCFormerより約$3.14sim 4.40times、最先端のPUMAより$1.44sim 2.35timesが速いことがわかった。
論文 参考訳(メタデータ) (2024-05-09T03:28:16Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Privacy Preserving Multi-Agent Reinforcement Learning in Supply Chains [5.436598805836688]
本稿では,サプライチェーンの文脈におけるマルチエージェント強化学習(MARL)のプライバシー問題に対処する。
本稿では,MARL設定におけるセキュアなマルチパーティ計算フレームワークを利用したゲーム理論,プライバシ関連機構を提案する。
プライバシ保護方式で浮動小数点演算を行う学習機構を提案する。
論文 参考訳(メタデータ) (2023-12-09T21:25:21Z) - MPCLeague: Robust MPC Platform for Privacy-Preserving Machine Learning [5.203329540700177]
この論文は、2、3、4パーティで効率的なMPCフレームワークを設計することに焦点を当て、少なくとも1つの汚職とリング構造をサポートする。
それぞれのフレームワークに対して2つのバリエーションを提案し、一方は実行時間を最小化し、もう一方は金銭的コストに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-26T09:25:32Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。