論文の概要: SecureInfer: Heterogeneous TEE-GPU Architecture for Privacy-Critical Tensors for Large Language Model Deployment
- arxiv url: http://arxiv.org/abs/2510.19979v1
- Date: Wed, 22 Oct 2025 19:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.721714
- Title: SecureInfer: Heterogeneous TEE-GPU Architecture for Privacy-Critical Tensors for Large Language Model Deployment
- Title(参考訳): SecureInfer: 大規模言語モデル展開のためのプライバシクリティカルテンソルのための不均一なTEE-GPUアーキテクチャ
- Authors: Tushar Nayan, Ziqi Zhang, Ruimin Sun,
- Abstract要約: SecureInferは、計算集約的な操作を信頼できないアクセラレータにオフロードするフレームワークである。
LLaMA-2モデルを用いてSecureInferのプロトタイプを実装し,性能およびセキュリティ指標間で評価する。
- 参考スコア(独自算出の注目度): 9.666696979829359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing deployment of Large Language Models (LLMs) on mobile and edge platforms, securing them against model extraction attacks has become a pressing concern. However, protecting model privacy without sacrificing the performance benefits of untrusted AI accelerators, such as GPUs, presents a challenging trade-off. In this paper, we initiate the study of high-performance execution on LLMs and present SecureInfer, a hybrid framework that leverages a heterogeneous Trusted Execution Environments (TEEs)-GPU architecture to isolate privacy-critical components while offloading compute-intensive operations to untrusted accelerators. Building upon an outsourcing scheme, SecureInfer adopts an information-theoretic and threat-informed partitioning strategy: security-sensitive components, including non-linear layers, projection of attention head, FNN transformations, and LoRA adapters, are executed inside an SGX enclave, while other linear operations (matrix multiplication) are performed on the GPU after encryption and are securely restored within the enclave. We implement a prototype of SecureInfer using the LLaMA-2 model and evaluate it across performance and security metrics. Our results show that SecureInfer offers strong security guarantees with reasonable performance, offering a practical solution for secure on-device model inference.
- Abstract(参考訳): モバイルおよびエッジプラットフォームへのLarge Language Models(LLM)のデプロイが増加し、モデル抽出攻撃に対するセキュリティが懸念されている。
しかし、GPUのような信頼できないAIアクセラレータのパフォーマンス上のメリットを犠牲にすることなく、モデルのプライバシを保護することは、難しいトレードオフである。
本稿では、LLM上での高性能実行の研究を開始し、不均一なTrusted Execution Environments(TEEs)-GPUアーキテクチャを活用するハイブリッドフレームワークSecureInferについて、計算集約的な操作を信頼できないアクセラレータにオフロードしながら、プライバシクリティカルなコンポーネントを分離する。
セキュリティに敏感なコンポーネント(非線形層、注意ヘッドの投影、FNN変換、LoRAアダプタ)はSGXエンクレーブ内で実行されるが、他のリニア操作(マクロ乗算)は暗号化後にGPU上で実行され、エンクレーブ内でセキュアに復元される。
LLaMA-2モデルを用いてSecureInferのプロトタイプを実装し,性能およびセキュリティ指標間で評価する。
結果から,SecureInferは適切な性能で強力なセキュリティ保証を提供し,デバイス上でのセキュアなモデル推論のための実用的なソリューションを提供することがわかった。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Securing Transformer-based AI Execution via Unified TEEs and Crypto-protected Accelerators [19.93096649006403]
マシンラーニングは信頼できないクラウドインフラストラクチャ上で動作し、データとモデルを潜在的な侵害に晒す。
信頼された実行環境(TEE)内で完全にモデル推論を実行すると、非自明なスローダウンが発生する。
異種TEEおよびアクセラレータシステムにおけるセキュアトランスフォーマー推論を実現するフレームワークであるTwinShieldを提案する。
論文 参考訳(メタデータ) (2025-07-04T03:52:53Z) - TEESlice: Protecting Sensitive Neural Network Models in Trusted Execution Environments When Attackers have Pre-Trained Models [12.253529209143197]
TSDPは、TEE内のプライバシーに敏感な重みを保護し、GPUに不感な重みをオフロードする手法である。
トレーニング戦略の前に新たなパーティションを導入し,プライバシに敏感な重みをモデルの他のコンポーネントと効果的に分離する。
提案手法は, 計算コストを10倍に削減し, 完全なモデル保護を実現できることを示す。
論文 参考訳(メタデータ) (2024-11-15T04:52:11Z) - CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [66.72332011814183]
CoreGuardは、エッジデバイスにデプロイされるプロプライエタリな大規模言語モデル(LLM)の計算と通信効率の保護方法である。
CoreGuardは効率的な保護プロトコルを使用して、計算オーバーヘッドを削減し、伝搬プロトコルによる通信オーバーヘッドを最小限にする。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - SLIP: Securing LLMs IP Using Weights Decomposition [0.0]
大規模言語モデル(LLM)は、最近、アカデミックと産業の両方で広く採用されている。
これらのモデルが成長するにつれて、彼らは価値ある知的財産権(IP)となり、所有者による巨額の投資を反映している。
エッジ上のモデルのIPを保護する現在の方法は、実用性、精度の低下、要求に対する適合性の制限がある。
我々は,エッジデデプロイされたモデルを盗難から保護するために,SLIPという新しいハイブリッド推論アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-07-15T16:37:55Z) - Privacy preserving layer partitioning for Deep Neural Network models [0.21470800327528838]
Trusted Execution Environments (TEEs)は、暗号化、復号化、セキュリティ、整合性チェックなどの追加レイヤによって、大幅なパフォーマンスオーバーヘッドを発生させることができる。
我々はGPUに層分割技術とオフロード計算を導入する。
我々は、訓練された条件付き生成逆数ネットワーク(c-GAN)を用いた入力再構成攻撃の防御におけるアプローチの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-11T02:39:48Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。