論文の概要: Privacy-Preserving Inference for Quantized BERT Models
- arxiv url: http://arxiv.org/abs/2508.01636v1
- Date: Sun, 03 Aug 2025 07:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.980778
- Title: Privacy-Preserving Inference for Quantized BERT Models
- Title(参考訳): 量子化BERTモデルのプライバシ保護推論
- Authors: Tianpei Lu, Bingsheng Zhang, Lekun Peng, Bowen Zheng, Lichun Li, Kui Ren,
- Abstract要約: 量子化は浮動小数点演算を低精度整数計算に変換することで有望な解を提供する。
本研究では, 層単位での微細な量子化手法を提案し, 1ビットの重み付き全連結層をセキュアな設定で支持する。
- 参考スコア(独自算出の注目度): 13.36359444231145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing deployment of generative machine learning models in privacy-sensitive domains such as healthcare and personalized services, ensuring secure inference has become a critical challenge. Secure multi-party computation (MPC) enables privacy-preserving model inference but suffers from high communication and computation overhead. The main bottleneck lies in the expensive secure evaluation of floating-point operations. Quantization offers a promising solution by converting floating-point operations into lower-precision integer computations, significantly reducing overhead. However, existing MPC-based quantized inference methods either rely on public quantization parameters-posing privacy risks-or suffer from inefficiencies, particularly in handling nonlinear functions such as activations and softmax. In this work, we propose a fine-grained, layer-wise quantization scheme and support 1-bit weight fully connected layers in a secure setting. We design a multi-input lookup table protocol to evaluate softmax efficiently and securely. Furthermore, we use dual secret sharing schemes and perform precision conversions via lookup tables, eliminating truncation overhead entirely. Experimental evaluation on BERT-base models demonstrates that our approach achieves up to $8\times$ speedup compared to Lu \emph{et al}. (NDSS 25), $9\times$ speedup compared to Gupta \emph{et al}. (PETS 24) and $22 \times$ speedup compared to Knott \emph{et al}. (NeurIPS 21).
- Abstract(参考訳): 医療やパーソナライズされたサービスなど、プライバシに敏感なドメインに生成機械学習モデルが展開されることで、セキュアな推論の確保が重要な課題となっている。
セキュアなマルチパーティ計算(MPC)は、プライバシ保護モデル推論を可能にするが、高い通信と計算オーバーヘッドに悩まされる。
主なボトルネックは、浮動小数点演算の高価な安全な評価にある。
量子化は浮動小数点演算を低い精度の整数計算に変換することで有望なソリューションを提供する。
しかし、既存のMPCベースの量子化推論手法は、特にアクティベーションやソフトマックスのような非線形機能を扱う際に、プライバシーリスクを負うような公開量子化パラメータに依存する。
本研究では, 層単位での微細な量子化手法を提案し, 1ビットの重み付き完全連結層をセキュアな設定でサポートした。
ソフトマックスを効率よく安全に評価するためのマルチ入力ルックアップテーブルプロトコルを設計する。
さらに、二重秘密共有方式を用いて、ルックアップテーブルを介して精度の高い変換を行い、トラルケーションオーバーヘッドを完全に排除する。
BERTモデルを用いた実験により,Lu \emph{et al}と比較して最大8\times$の高速化が得られた。
(NDSS 25), Gupta \emph{et al} と比較して 9\times$ speedup である。
(PETS 24)および22 \times$(Knott \emph{et al}と比較して)。
(NeurIPS 21)。
関連論文リスト
- Dual-Priv Pruning : Efficient Differential Private Fine-Tuning in Multimodal Large Language Models [21.598534853947676]
MLLMにおける微分プライバシ(DP)微調整のための2つの補完的プルーニング機構を用いたフレームワークを提案する。
我々のアプローチは、標準のDP-SGDよりも少ないメモリを一貫して活用する。
我々の知る限りでは、我々はMLLMにおけるDPファインチューニングを初めて探求している。
論文 参考訳(メタデータ) (2025-06-08T10:33:01Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Ditto: Quantization-aware Secure Inference of Transformers upon MPC [5.161569981377991]
我々は、より効率的な量子化対応セキュアトランスフォーマー推論を実現するために、Dittoというフレームワークを提案する。
本稿では,Bert モデルと GPT2 モデルを用いて,Ditto の性能評価を行う。
その結果、DittoはMPCFormerより約$3.14sim 4.40times、最先端のPUMAより$1.44sim 2.35timesが速いことがわかった。
論文 参考訳(メタデータ) (2024-05-09T03:28:16Z) - Tiny Deep Ensemble: Uncertainty Estimation in Edge AI Accelerators via Ensembling Normalization Layers with Shared Weights [0.8233872344445676]
AI駆動システムでは、不確実性推定により、ユーザーは過信予測を避け、機能的安全性を達成することができる。
エッジデバイスにおける不確実性推定のための低コストなアプローチであるTiny-Deep Ensembleアプローチを提案する。
提案手法は精度を損なわないが,予測精度は最大で$sim 1%$,RMSEは17.17%$である。
論文 参考訳(メタデータ) (2024-05-07T22:54:17Z) - Improved Communication-Privacy Trade-offs in $L_2$ Mean Estimation under Streaming Differential Privacy [47.997934291881414]
既存の平均推定スキームは、通常、$L_infty$幾何に最適化され、ランダムな回転や、$L$幾何に適応するカシンの表現に依存する。
本稿では,スパシフィケーションに固有のランダム性をDPに組み込んだ,スパシフィケーションガウシアン機構の新たなプライバシ会計手法を提案する。
従来の手法とは異なり、我々の会計アルゴリズムは直接$L$幾何で動作し、ガウスの機構に迅速に収束するMSEが得られる。
論文 参考訳(メタデータ) (2024-05-02T03:48:47Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - ScionFL: Efficient and Robust Secure Quantized Aggregation [36.668162197302365]
我々は,フェデレートラーニングのための最初のセキュアアグリゲーションフレームワークであるScionFLを紹介する。
量子化された入力で効率的に動作し、同時に悪意のあるクライアントに対して堅牢性を提供する。
クライアントのオーバーヘッドがなく、サーバのオーバーヘッドも緩やかなため、標準的なFLベンチマークに匹敵する精度が得られます。
論文 参考訳(メタデータ) (2022-10-13T21:46:55Z) - Integer-arithmetic-only Certified Robustness for Quantized Neural
Networks [14.737638416823772]
敵の例に対処する一連の作業は、ランダムな平滑化による堅牢性を保証する。
このようなメカニズムは通常、推論の計算に浮動小数点演算を使用する。
提案手法は,浮動小数点演算によるロバストな手法よりも精度と4x5xの高速化が得られることを示す。
論文 参考訳(メタデータ) (2021-08-21T01:15:19Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。