論文の概要: Ascend-CC: Confidential Computing on Heterogeneous NPU for Emerging Generative AI Workloads
- arxiv url: http://arxiv.org/abs/2407.11888v1
- Date: Tue, 16 Jul 2024 16:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:03:36.657966
- Title: Ascend-CC: Confidential Computing on Heterogeneous NPU for Emerging Generative AI Workloads
- Title(参考訳): Ascend-CC: 生成AIワークロードを創出するための不均一NPUの信頼計算
- Authors: Aritra Dhar, Clément Thorens, Lara Magdalena Lazier, Lukas Cavigelli,
- Abstract要約: クラウドワークロードは、大規模言語モデル(LLM)に基づいた生成AIを支配している
GPU、NPU、TPUといった特殊なハードウェアアクセラレータは、汎用CPUよりも優れたパフォーマンスのため、AIの採用において重要な役割を果たす。
AIモデルとデータは、しばしば非常に敏感で、相互に不信な関係者から来ています。
本稿では,ホストシステムへの信頼を必要としない離散NPUデバイスに基づく秘密計算アーキテクチャAscend-CCを提案する。
- 参考スコア(独自算出の注目度): 1.8633238548765558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cloud workloads have dominated generative AI based on large language models (LLM). Specialized hardware accelerators, such as GPUs, NPUs, and TPUs, play a key role in AI adoption due to their superior performance over general-purpose CPUs. The AI models and the data are often highly sensitive and come from mutually distrusting parties. Existing CPU-based TEEs such as Intel SGX or AMD SEV do not provide sufficient protection. Device-centric TEEs like Nvidia-CC only address tightly coupled CPU-GPU systems with a proprietary solution requiring TEE on the host CPU side. On the other hand, existing academic proposals are tailored toward specific CPU-TEE platforms. To address this gap, we propose Ascend-CC, a confidential computing architecture based on discrete NPU devices that requires no trust in the host system. Ascend-CC provides strong security by ensuring data and model encryption that protects not only the data but also the model parameters and operator binaries. Ascend-CC uses delegation-based memory semantics to ensure isolation from the host software stack, and task attestation provides strong model integrity guarantees. Our Ascend-CC implementation and evaluation with state-of-the-art LLMs such as Llama2 and Llama3 shows that Ascend-CC introduces minimal overhead with no changes in the AI software stack.
- Abstract(参考訳): クラウドワークロードは、大規模言語モデル(LLM)に基づいた生成AIを支配している。
GPU、NPU、TPUといった特殊なハードウェアアクセラレータは、汎用CPUよりも優れたパフォーマンスのため、AIの採用において重要な役割を果たす。
AIモデルとデータは、しばしば非常に敏感で、相互に不信な関係者から来ています。
Intel SGXやAMD SEVのような既存のCPUベースのTEEは十分な保護を提供していない。
Nvidia-CCのようなデバイス中心のTEEは、ホストCPU側でTEEを必要とするプロプライエタリなソリューションで、密結合したCPU-GPUシステムにのみ対処する。
一方、既存の学術的提案は、特定のCPU-TEEプラットフォーム向けに調整されている。
このギャップに対処するために、ホストシステムへの信頼を必要としない離散NPUデバイスに基づく秘密計算アーキテクチャAscend-CCを提案する。
Ascend-CCは、データだけでなく、モデルパラメータや演算子バイナリも保護するデータとモデル暗号化を保証することで、強力なセキュリティを提供する。
Ascend-CCは、ホストソフトウェアスタックからの隔離を保証するためにデリゲートベースのメモリセマンティクスを使用しており、タスク検証は強力なモデルの完全性を保証する。
我々のAscend-CC実装とLlama2やLlama3のような最先端のLLMによる評価は、Ascend-CCがAIソフトウェアスタックの変更なしに最小限のオーバーヘッドを導入していることを示している。
関連論文リスト
- TensorTEE: Unifying Heterogeneous TEE Granularity for Efficient Secure Collaborative Tensor Computing [13.983627699836376]
既存の異種TEE設計は、CPUとNPU間のメモリの粒度が微妙で異なるため、協調コンピューティングでは非効率である。
安全な協調計算のための統合テンソル・グラニュラリティ異種TEEを提案する。
その結果、TEEは、既存の作業と比べて、Large Language Model(LLM)トレーニングワークロードのパフォーマンスを4.0倍改善していることがわかった。
論文 参考訳(メタデータ) (2024-07-12T00:35:18Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - HasTEE+ : Confidential Cloud Computing and Analytics with Haskell [50.994023665559496]
信頼性コンピューティングは、Trusted Execution Environments(TEEs)と呼ばれる特別なハードウェア隔離ユニットを使用して、コテナントクラウドデプロイメントにおける機密コードとデータの保護を可能にする。
低レベルのC/C++ベースのツールチェーンを提供するTEEは、固有のメモリ安全性の脆弱性の影響を受けやすく、明示的で暗黙的な情報フローのリークを監視するための言語構造が欠如している。
私たちは、Haskellに埋め込まれたドメイン固有言語(cla)であるHasTEE+を使って、上記の問題に対処します。
論文 参考訳(メタデータ) (2024-01-17T00:56:23Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - A Many-ported and Shared Memory Architecture for High-Performance ADAS
SoCs [11.760927352147798]
本稿では,ADASアプリケーションへのネイティブ並列アクセス間で高いデータスループットを実現するための共有メモリアーキテクチャを提案する。
その結果、提案アーキテクチャは、読み取りと書き込みの両方のアクセスに対して、100%近いスループットを提供することがわかった。
また、設計のスケーラビリティとモジュラリティを確保しながら、ドメイン固有のペイロードに一貫性を持たせることもできる。
論文 参考訳(メタデータ) (2022-09-13T04:58:27Z) - Confidential Machine Learning within Graphcore IPUs [1.8657490510210906]
GraphcoreのGC200 IPUはTSMCの7nm技術ノードで出力された。
ITXは、パフォーマンスのオーバーヘッドが低い場合に、強力な機密性と整合性を保証するAIワークロードの実行を可能にする。
論文 参考訳(メタデータ) (2022-05-18T15:41:13Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。