論文の概要: MPC-Minimized Secure LLM Inference
- arxiv url: http://arxiv.org/abs/2408.03561v1
- Date: Wed, 7 Aug 2024 05:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:43:46.314063
- Title: MPC-Minimized Secure LLM Inference
- Title(参考訳): MPC最小化セキュアLLM推論
- Authors: Deevashwer Rathee, Dacheng Li, Ion Stoica, Hao Zhang, Raluca Popa,
- Abstract要約: Marill は LLM の微調整に適応してセキュアな推論における MPC の使用を最小限にするフレームワークである。
標準的な微調整と比較して、Marillは3.6-11.3倍のランタイムと2.4-6.9倍の通信性能を持つ。
- 参考スコア(独自算出の注目度): 23.719628611122996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many inference services based on large language models (LLMs) pose a privacy concern, either revealing user prompts to the service or the proprietary weights to the user. Secure inference offers a solution to this problem through secure multi-party computation (MPC), however, it is still impractical for modern LLM workload due to the large overhead imposed by MPC. To address this overhead, we propose Marill, a framework that adapts LLM fine-tuning to minimize MPC usage during secure inference. Marill introduces high-level architectural changes during fine-tuning that significantly reduce the number of expensive operations needed within MPC during inference, by removing some and relocating others outside MPC without compromising security. As a result, Marill-generated models are more efficient across all secure inference protocols and our approach complements MPC-friendly approximations for such operations. Compared to standard fine-tuning, Marill results in 3.6-11.3x better runtime and 2.4-6.9x better communication during secure inference across various MPC settings, while typically preserving over 90% performance across downstream tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく多くの推論サービスは、サービスへのユーザのプロンプトや、ユーザに対するプロプライエタリな重みを明らかにすることによって、プライバシ上の懸念を生じさせる。
セキュア推論は、セキュアなマルチパーティ計算(MPC)を通じてこの問題に対する解決策を提供するが、MPCによって課される大きなオーバーヘッドのため、現代のLLMワークロードには実用的ではない。
このオーバーヘッドに対処するため、セキュアな推論におけるMPC使用量を最小限に抑えるためにLLM微調整を施したフレームワークであるMarillを提案する。
Marill氏は、微調整中に高いレベルのアーキテクチャ変更を導入し、推論中にMPC内で必要な高価な操作の数を大幅に減らした。
その結果,マリル生成モデルはすべてのセキュアな推論プロトコルにおいてより効率的であり,本手法はMPCフレンドリな近似を補完する。
標準的な微調整と比較すると、Marillは3.6-11.3倍のランタイムと2.4-6.9倍の通信能力を持つ。
関連論文リスト
- OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Low-Latency Privacy-Preserving Deep Learning Design via Secure MPC [31.35072624488929]
セキュアなマルチパーティ計算(MPC)は、プライベート情報をリークすることなく、複数のパーティ間のプライバシ保護計算を容易にする。
本研究は、MPCプロトコルの実行中に不要な通信ラウンドを減らす、低レイテンシな秘密共有ベースのMPC設計を提案する。
論文 参考訳(メタデータ) (2024-07-24T07:01:21Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - Enhancing Security and Privacy in Federated Learning using Low-Dimensional Update Representation and Proximity-Based Defense [23.280147155814955]
Federated Learning(FL)は、データ所有者がデータをローカライズしながらモデルを協調的にトレーニングできる、有望な機械学習パラダイムである。
その可能性にもかかわらず、FLはクライアントとサーバの両方の信頼性に関する課題に直面している。
我々は,分散学習環境におけるビザンチン攻撃に対するプライバシー保護と抵抗に対処するために,FLURPという新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-29T06:46:10Z) - PermLLM: Private Inference of Large Language Models within 3 Seconds under WAN [19.014325509263536]
ChatGPTは、大きな言語モデル(LLM)時代の到来を示す。
PermLLM は ChatGLM-6B モデルを約3s/token の速度で2パーティのプライベート推論を行う。
論文 参考訳(メタデータ) (2024-05-29T04:06:50Z) - Ditto: Quantization-aware Secure Inference of Transformers upon MPC [5.161569981377991]
我々は、より効率的な量子化対応セキュアトランスフォーマー推論を実現するために、Dittoというフレームワークを提案する。
本稿では,Bert モデルと GPT2 モデルを用いて,Ditto の性能評価を行う。
その結果、DittoはMPCFormerより約$3.14sim 4.40times、最先端のPUMAより$1.44sim 2.35timesが速いことがわかった。
論文 参考訳(メタデータ) (2024-05-09T03:28:16Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - MPCLeague: Robust MPC Platform for Privacy-Preserving Machine Learning [5.203329540700177]
この論文は、2、3、4パーティで効率的なMPCフレームワークを設計することに焦点を当て、少なくとも1つの汚職とリング構造をサポートする。
それぞれのフレームワークに対して2つのバリエーションを提案し、一方は実行時間を最小化し、もう一方は金銭的コストに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-26T09:25:32Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。