論文の概要: TensorTEE: Unifying Heterogeneous TEE Granularity for Efficient Secure Collaborative Tensor Computing
- arxiv url: http://arxiv.org/abs/2407.08903v1
- Date: Fri, 12 Jul 2024 00:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:16:30.436605
- Title: TensorTEE: Unifying Heterogeneous TEE Granularity for Efficient Secure Collaborative Tensor Computing
- Title(参考訳): TensorTEE: 安全なコラボレーション型テンソルコンピューティングのための不均一なTEE粒度の統合
- Authors: Husheng Han, Xinyao Zheng, Yuanbo Wen, Yifan Hao, Erhu Feng, Ling Liang, Jianan Mu, Xiaqing Li, Tianyun Ma, Pengwei Jin, Xinkai Song, Zidong Du, Qi Guo, Xing Hu,
- Abstract要約: 既存の異種TEE設計は、CPUとNPU間のメモリの粒度が微妙で異なるため、協調コンピューティングでは非効率である。
安全な協調計算のための統合テンソル・グラニュラリティ異種TEEを提案する。
その結果、TEEは、既存の作業と比べて、Large Language Model(LLM)トレーニングワークロードのパフォーマンスを4.0倍改善していることがわかった。
- 参考スコア(独自算出の注目度): 13.983627699836376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Heterogeneous collaborative computing with NPU and CPU has received widespread attention due to its substantial performance benefits. To ensure data confidentiality and integrity during computing, Trusted Execution Environments (TEE) is considered a promising solution because of its comparatively lower overhead. However, existing heterogeneous TEE designs are inefficient for collaborative computing due to fine and different memory granularities between CPU and NPU. 1) The cacheline granularity of CPU TEE intensifies memory pressure due to its extra memory access, and 2) the cacheline granularity MAC of NPU escalates the pressure on the limited memory storage. 3) Data transfer across heterogeneous enclaves relies on the transit of non-secure regions, resulting in cumbersome re-encryption and scheduling. To address these issues, we propose TensorTEE, a unified tensor-granularity heterogeneous TEE for efficient secure collaborative tensor computing. First, we virtually support tensor granularity in CPU TEE to eliminate the off-chip metadata access by detecting and maintaining tensor structures on-chip. Second, we propose tensor-granularity MAC management with predictive execution to avoid computational stalls while eliminating off-chip MAC storage and access. Moreover, based on the unified granularity, we enable direct data transfer without re-encryption and scheduling dilemmas. Our evaluation is built on enhanced Gem5 and a cycle-accurate NPU simulator. The results show that TensorTEE improves the performance of Large Language Model (LLM) training workloads by 4.0x compared to existing work and incurs only 2.1% overhead compared to non-secure training, offering a practical security assurance for LLM training.
- Abstract(参考訳): NPUとCPUによる不均一なコラボレーティブコンピューティングは、その性能上の利点から広く注目を集めている。
コンピューティングにおけるデータの機密性と整合性を確保するため、Trusted Execution Environments (TEE) は比較的低いオーバーヘッドのため、有望なソリューションであると考えられている。
しかし、既存の異種TEE設計は、CPUとNPUのメモリの粒度が微妙で異なるため、協調コンピューティングでは非効率である。
1) CPU TEEのキャッシュラインの粒度は、余分なメモリアクセスによるメモリ圧力を増大させ、
2)NPUのキャッシュライン粒度MACは、限られたメモリストレージの圧力を増大させる。
3) 異種エンクレーブ間のデータ転送は非セキュア領域の転送に依存しており, 煩雑な再暗号化とスケジューリングを行う。
これらの問題に対処するために,効率的な協調テンソル計算のための統一テンソル粒度不均一TEEであるTensorTEEを提案する。
まず,CPUTEEにおけるテンソルの粒度を仮想的にサポートし,チップ上のテンソル構造を検出し維持することにより,オフチップメタデータアクセスを除去する。
第2に,オフチップMACストレージとアクセスを排除しつつ,計算停止を回避するために,予測実行を伴うテンソル粒度MAC管理を提案する。
さらに、統一された粒度に基づいて、再暗号化やジレンマのスケジューリングを行わずに直接データ転送を可能にする。
本評価は,改良されたGem5とサイクル精度NPUシミュレータ上に構築した。
その結果、TensorTEEは、既存の作業に比べてLarge Language Model(LLM)トレーニングワークロードのパフォーマンスを4.0倍改善し、非セキュアトレーニングに比べて2.1%オーバーヘッドしか発生せず、LLMトレーニングの実践的なセキュリティ保証を提供することがわかった。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - PhD Forum: Efficient Privacy-Preserving Processing via Memory-Centric Computing [0.0]
ホモモルフィック暗号化(HE)とセキュアマルチパーティ計算(SMPC)は、暗号化されたデータの処理を可能にすることにより、データのセキュリティを高める。
既存のアプローチでは、特別なハードウェアを使用して計算オーバーヘッドを改善することに重点を置いている。
我々は、最近利用可能なPIMハードウェアを用いて、効率的なプライバシ保存計算を実現するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T09:37:50Z) - Privacy preserving layer partitioning for Deep Neural Network models [0.21470800327528838]
Trusted Execution Environments (TEEs)は、暗号化、復号化、セキュリティ、整合性チェックなどの追加レイヤによって、大幅なパフォーマンスオーバーヘッドを発生させることができる。
我々はGPUに層分割技術とオフロード計算を導入する。
我々は、訓練された条件付き生成逆数ネットワーク(c-GAN)を用いた入力再構成攻撃の防御におけるアプローチの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-11T02:39:48Z) - SOCI^+: An Enhanced Toolkit for Secure OutsourcedComputation on Integers [50.608828039206365]
本稿では,SOCIの性能を大幅に向上させるSOCI+を提案する。
SOCI+は、暗号プリミティブとして、高速な暗号化と復号化を備えた(2, 2)ホールドのPaillier暗号システムを採用している。
実験の結果,SOCI+は計算効率が最大5.4倍,通信オーバヘッドが40%少ないことがわかった。
論文 参考訳(メタデータ) (2023-09-27T05:19:32Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - RRNet: Towards ReLU-Reduced Neural Network for Two-party Computation
Based Private Inference [17.299835585861747]
本稿では,MPC比較プロトコルのオーバーヘッドを減らし,ハードウェアアクセラレーションによる計算を高速化するフレームワークRRNetを紹介する。
提案手法は,暗号ビルディングブロックのハードウェア遅延をDNN損失関数に統合し,エネルギー効率,精度,セキュリティ保証を改善する。
論文 参考訳(メタデータ) (2023-02-05T04:02:13Z) - PolyMPCNet: Towards ReLU-free Neural Architecture Search in Two-party
Computation Based Private Inference [23.795457990555878]
プライバシー保護型ディープラーニング(DL)計算を可能にするために,セキュアなマルチパーティ計算(MPC)が議論されている。
MPCは計算オーバーヘッドが非常に高く、大規模システムではその人気を阻害する可能性がある。
本研究では,MPC比較プロトコルとハードウェアアクセラレーションの協調オーバーヘッド削減のための,PolyMPCNetという体系的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-09-20T02:47:37Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge
Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。
分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T02:48:27Z) - Perun: Secure Multi-Stakeholder Machine Learning Framework with GPU
Support [1.5362025549031049]
Perunは機密のマルチステークホルダ機械学習のためのフレームワークである。
ハードウェアアクセラレータ(GPUなど)上でMLトレーニングを実行し、セキュリティ保証を提供する。
CIFAR-10と現実世界の医療データセットのMLトレーニング中に、Perunは161倍から1560倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2021-03-31T08:31:07Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。