論文の概要: LRD-MPC: Efficient MPC Inference through Low-rank Decomposition
- arxiv url: http://arxiv.org/abs/2602.14397v1
- Date: Mon, 16 Feb 2026 02:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.042541
- Title: LRD-MPC: Efficient MPC Inference through Low-rank Decomposition
- Title(参考訳): LRD-MPC:低ランク分解による効率的なMPC推論
- Authors: Tingting Tang, Yongqin Wang, Murali Annavaram,
- Abstract要約: Secure Multi-party Computationは、信頼できない当事者が入力を明かさずに、共同で関数を計算できるようにする。
ディープニューラルネットワークは畳み込み層と完全に接続された層に大きく依存しており、MPCのコストのかかる行列乗算を必要とする。
線形層に対する低ランク分解(LRD)の活用を提案し, 1つの大きな行列乗算を2つの小さな層に置き換えた。
- 参考スコア(独自算出の注目度): 11.1852308328843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Secure Multi-party Computation (MPC) enables untrusted parties to jointly compute a function without revealing their inputs. Its application to machine learning (ML) has gained significant attention, particularly for secure inference services deployed across multiple cloud virtual machines (VMs), where each VM acts as an MPC party. Model providers secret-share model weights, and users secret-share inputs, ensuring that each server operates only on random shares. While MPC provides strong cryptographic guarantees, it incurs substantial computational and communication overhead. Deep neural networks rely heavily on convolutional and fully connected layers, which require costly matrix multiplications in MPC. To reduce this cost, we propose leveraging low-rank decomposition (LRD) for linear layers, replacing one large matrix multiplication with two smaller ones. Each matrix multiplication in MPC incurs a round of communication, meaning decomposing one matrix multiplication into two leads to an additional communication round. Second, the added matrix multiplication requires an additional truncation step to maintain numerical precision. Since truncation itself requires communication and computation, these overheads can offset the gains from decomposition. To address this, we introduce two complementary optimizations: truncation skipping and efficient linear layer concatenation. Truncation skipping removes the extra truncation induced by LRD, while linear layer concatenation pipelines operations to hide the additional communication round. Together, these techniques mitigate the main overheads of LRD in MPC and improve overall efficiency. Our approach is broadly applicable across MPC protocols. Experiments show up to 25% speedup in n-PC and 33% in 3-PC protocols over full-rank baselines, along with up to 52% GPU energy savings and 88% reduction in offline-phase latency.
- Abstract(参考訳): Secure Multi-party Computation (MPC) は、信頼できない当事者が入力を明かさずに、共同で関数を計算できるようにする。
特に、複数のクラウド仮想マシン(VM)にデプロイされるセキュアな推論サービスでは、各VMがMPCパーティとして機能する。
モデルプロバイダのシークレットシェアモデルウェイトとユーザのシークレットシェアインプットは、各サーバがランダムシェアのみで動作することを保証します。
MPCは強力な暗号保証を提供するが、かなりの計算と通信のオーバーヘッドを引き起こす。
ディープニューラルネットワークは畳み込み層と完全に接続された層に大きく依存しており、MPCのコストのかかる行列乗算を必要とする。
このコストを削減するため、線形層に低ランク分解(LRD)を応用し、1つの大きな行列乗算を2つの小さな層に置き換えることを提案する。
MPCにおける各行列乗算は通信のラウンドを発生させ、つまり1つの行列乗算を2つに分解することで、追加の通信ラウンドにつながる。
第二に、追加の行列乗法は、数値的精度を維持するために追加のトランケーションステップを必要とする。
トランケーション自体が通信と計算を必要とするため、これらのオーバーヘッドは分解から利益を相殺することができる。
これを解決するために、トランケーションスキップと効率的な線形層結合という2つの相補的な最適化を導入する。
トランケーションスキップはRDDによって引き起こされる余分なトランケーションを除去する一方、線形層結合パイプラインは追加の通信ラウンドを隠蔽する操作を行う。
これらの技術により、MDCにおけるRDDの主なオーバーヘッドが軽減され、全体的な効率が向上する。
私たちのアプローチは、MPCプロトコルに広く適用されています。
実験では、n-PCで25%のスピードアップ、フルランクベースラインで33%の3PCプロトコルで33%、GPUエネルギーを最大52%削減し、オフラインフェーズのレイテンシを88%削減する。
関連論文リスト
- GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - NeuMatC: A General Neural Framework for Fast Parametric Matrix Operation [75.91285900600549]
我々は、一般的なパラメトリック行列演算タスクをエレガントに扱うtextbftextitNeural Matrix Computation Framework (NeuMatC)を提案する。
NeuMatCは、パラメータから対応する行列演算結果への低ランクかつ連続的なマッピングを教師なしで学習する。
合成と実世界の両方のデータセットの実験結果は、NeuMatCの有望な性能を示している。
論文 参考訳(メタデータ) (2025-11-28T07:21:17Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - MPC-Pipe: an Efficient Pipeline Scheme for Secure Multi-party Machine Learning Inference [5.7203077366666015]
重なり合う計算と通信の手順を慎重に整理することは可能であることを示す。
MPC-Pipeは機械学習ワークロードのトレーニングと推論の両方に効率的なMPCシステムである。
論文 参考訳(メタデータ) (2022-09-27T19:16:26Z) - HD-cos Networks: Efficient Neural Architectures for Secure Multi-Party
Computation [26.67099154998755]
マルチパーティ計算(MPC、Multi-party calculation)は、暗号化の分野の一つで、複数の非解決パーティが関数を安全に計算するためのプロトコルを実行する。
MPC設定下でニューラルネットワークのトレーニングと推論について検討する。
どちらの手法も、MPC設定下での強力な理論的モチベーションと効率的な計算を享受できることを示す。
論文 参考訳(メタデータ) (2021-10-28T21:15:11Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。