論文の概要: APINT: A Full-Stack Framework for Acceleration of Privacy-Preserving Inference of Transformers based on Garbled Circuits
- arxiv url: http://arxiv.org/abs/2502.16877v1
- Date: Mon, 24 Feb 2025 06:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:51:24.498574
- Title: APINT: A Full-Stack Framework for Acceleration of Privacy-Preserving Inference of Transformers based on Garbled Circuits
- Title(参考訳): APINT: ガブラー回路に基づくトランスフォーマーのプライバシ保護推論の高速化のためのフルスタックフレームワーク
- Authors: Hyunjun Cho, Jaeho Jeon, Jaehoon Heo, Joo-Young Kim,
- Abstract要約: APINTは、PiT全体のレイテンシを低減するために設計されたフルスタックフレームワークである。
APINTは、可能なGCワークロードを代替メソッドに再配置する、新しいプロトコルを備えている。
また、最大でANDゲート数を減らすGCフレンドリーな回路生成も提案している。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License:
- Abstract: As the importance of Privacy-Preserving Inference of Transformers (PiT) increases, a hybrid protocol that integrates Garbled Circuits (GC) and Homomorphic Encryption (HE) is emerging for its implementation. While this protocol is preferred for its ability to maintain accuracy, it has a severe drawback of excessive latency. To address this, existing protocols primarily focused on reducing HE latency, thus making GC the new latency bottleneck. Furthermore, previous studies only focused on individual computing layers, such as protocol or hardware accelerator, lacking a comprehensive solution at the system level. This paper presents APINT, a full-stack framework designed to reduce PiT's overall latency by addressing the latency problem of GC through both software and hardware solutions. APINT features a novel protocol that reallocates possible GC workloads to alternative methods (i.e., HE or standard matrix operation), substantially decreasing the GC workload. It also suggests GC-friendly circuit generation that reduces the number of AND gates at the most, which is the expensive operator in GC. Furthermore, APINT proposes an innovative netlist scheduling that combines coarse-grained operation mapping and fine-grained scheduling for maximal data reuse and minimal dependency. Finally, APINT's hardware accelerator, combined with its compiler speculation, effectively resolves the memory stall issue. Putting it all together, APINT achieves a remarkable end-to-end reduction in latency, outperforming the existing protocol on CPU platform by 12.2x online and 2.2x offline. Meanwhile, the APINT accelerator not only reduces its latency by 3.3x but also saves energy consumption by 4.6x while operating PiT compared to the state-of-the-art GC accelerator.
- Abstract(参考訳): トランスフォーマーのプライバシ保存推論(PiT)の重要性が高まるにつれ、その実装には、GC(Garbled Circuits)とHE(Homomorphic Encryption)を統合したハイブリッドプロトコルが登場している。
このプロトコルは正確性を維持するために好まれるが、過度のレイテンシーの深刻な欠点がある。
これを解決するため、既存のプロトコルは主にHEレイテンシの削減に重点を置いており、GCを新たなレイテンシのボトルネックにしている。
さらに、以前の研究では、プロトコルやハードウェアアクセラレーションのような個々の計算層にのみ焦点を当てており、システムレベルでの包括的なソリューションが欠如している。
本稿では,ソフトウェアとハードウェアの両ソリューションによるGCのレイテンシ問題に対処することにより,PiT全体のレイテンシを低減するために設計されたフルスタックフレームワークであるAPINTを提案する。
APINTは、可能なGCワークロードを代替メソッド(HEや標準マトリックス操作など)に再配置する新しいプロトコルを備えており、GCワークロードを大幅に削減している。
また、GCの高価な演算子であるANDゲートの数を最大で削減するGCフレンドリーな回路生成も提案している。
さらに、APINTは、粗い操作マッピングと極大データの再利用と最小限の依存関係のためのきめ細かいスケジューリングを組み合わせた革新的なネットリストスケジューリングを提案する。
最後に、APINTのハードウェアアクセラレーターとコンパイラの推測が組み合わさって、メモリ停止問題を効果的に解決する。
まとめると、APINTは、CPUプラットフォーム上の既存のプロトコルを12.2倍、オフライン2.2倍の性能で上回る、驚くべきエンドツーエンドのレイテンシの削減を実現している。
一方、APINTアクセラレータは、レイテンシを3.3倍削減するだけでなく、最先端のGCアクセラレータと比較して、PiTの運用中にエネルギー消費を4.6倍削減する。
関連論文リスト
- When Less is More: Achieving Faster Convergence in Distributed Edge Machine Learning [0.0]
リソース制約のあるエッジデバイス上での分散機械学習(DML)は、現実世界のアプリケーションにとって大きな可能性を秘めている。
本稿では,エッジデバイス上での効率的なDMLのための新しい確率的フレームワークであるHermesを提案する。
実世界の異種資源制約環境に対する評価は,Hermesが最先端の手法に比べて高速な収束を実現することを示す。
論文 参考訳(メタデータ) (2024-10-27T16:17:03Z) - Rethinking and Accelerating Graph Condensation: A Training-Free Approach with Class Partition [49.41718583061147]
グラフ凝縮(Graph condensation)は、大きなグラフを小さいが情報的な凝縮グラフに置き換えるための、データ中心のソリューションである。
既存のGCメソッドは、複雑な最適化プロセス、過剰なコンピューティングリソースとトレーニング時間を必要とする。
我々は、CGC(Class-partitioned Graph Condensation)と呼ばれるトレーニング不要なGCフレームワークを提案する。
CGCはOgbn-productsグラフを30秒以内に凝縮し、102$Xから104$Xまでのスピードアップを実現し、精度は4.2%まで向上した。
論文 参考訳(メタデータ) (2024-05-22T14:57:09Z) - Banyan: Fast Rotating Leader BFT [20.52947785138998]
Banyanは、単一のラウンドトリップ時間でトランザクションを確認可能な、最初の回転型リーダステートマシンレプリケーションプロトコルである。
本稿では,高速経路におけるブロック終端遅延の最適化を可能にする新しいデュアルモード機構を提案する。
評価の結果,Banyanは最先端プロトコルと比較して,レイテンシを最大30%削減できることがわかった。
論文 参考訳(メタデータ) (2023-12-10T12:32:58Z) - Check-Agnosia based Post-Processor for Message-Passing Decoding of Quantum LDPC Codes [3.4602940992970908]
ハードウェアフレンドリーな方向性を持つ新しい後処理アルゴリズムを導入し、最先端技術と競合する誤り訂正性能を提供する。
FPGA基板上では,1マイクロ秒に近いレイテンシ値が得られることを示すとともに,ASIC実装においてより低いレイテンシ値が得られることを示す。
論文 参考訳(メタデータ) (2023-10-23T14:51:22Z) - Architecture and protocols for all-photonic quantum repeaters [0.49157446832511503]
全フォトニック量子リピータ方式は、光子損失と運用上のエラーに対するレジリエンスを約束する。
本稿では,新しいエミッタ・フォトニック・キュービット・ビルディングブロックと RGS プロトコルを提案する。
提案するビルディングブロックは,エンドノードに必要な量子メモリの総数を大幅に削減する。
論文 参考訳(メタデータ) (2023-06-06T15:08:50Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - PolyMPCNet: Towards ReLU-free Neural Architecture Search in Two-party
Computation Based Private Inference [23.795457990555878]
プライバシー保護型ディープラーニング(DL)計算を可能にするために,セキュアなマルチパーティ計算(MPC)が議論されている。
MPCは計算オーバーヘッドが非常に高く、大規模システムではその人気を阻害する可能性がある。
本研究では,MPC比較プロトコルとハードウェアアクセラレーションの協調オーバーヘッド削減のための,PolyMPCNetという体系的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-09-20T02:47:37Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。