論文の概要: TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone
- arxiv url: http://arxiv.org/abs/2511.13717v1
- Date: Mon, 17 Nov 2025 18:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.699728
- Title: TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone
- Title(参考訳): TZ-LLM: Arm TrustZoneによるデバイス上の大規模言語モデル保護
- Authors: Xunjie Wang, Jiacheng Shi, Zihan Zhao, Yang Yu, Zhichao Hua, Jinyu Gu,
- Abstract要約: モバイルデバイスにデプロイされる大規模言語モデル(LLM)は、ユーザのプライバシやネットワーク遅延の低減といったメリットを提供するが、重大なセキュリティリスクをもたらす。
我々は、Arm Trusted Execution Environment (TEE)、TrustZoneを用いて、デバイス上でのLDMを保護するシステム設計を提案する。
- 参考スコア(独自算出の注目度): 8.538298365840877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) deployed on mobile devices offer benefits like user privacy and reduced network latency, but introduce a significant security risk: the leakage of proprietary models to end users. To mitigate this risk, we propose a system design for protecting on-device LLMs using Arm Trusted Execution Environment (TEE), TrustZone. Our system addresses two primary challenges: (1) The dilemma between memory efficiency and fast inference (caching model parameters within TEE memory). (2) The lack of efficient and secure Neural Processing Unit (NPU) time-sharing between Rich Execution Environment (REE) and TEE. Our approach incorporates two key innovations. First, we employ pipelined restoration, leveraging the deterministic memory access patterns of LLM inference to prefetch parameters on demand, hiding memory allocation, I/O and decryption latency under computation time. Second, we introduce a co-driver design, creating a minimal data plane NPU driver in the TEE that collaborates with the full-fledged REE driver. This reduces the TEE TCB size and eliminates control plane reinitialization overhead during NPU world switches. We implemented our system on the emerging OpenHarmony OS and the llama.cpp inference framework, and evaluated it with various LLMs on an Arm Rockchip device. Compared to a strawman TEE baseline lacking our optimizations, our system reduces TTFT by up to 90.9% and increases decoding speed by up to 23.2%.
- Abstract(参考訳): モバイルデバイスにデプロイされるLarge Language Models(LLM)は、ユーザのプライバシやネットワーク遅延の低減といったメリットを提供するが、セキュリティ上の大きなリスクが伴う。
このリスクを軽減するために,Arm Trusted Execution Environment (TEE), TrustZone を用いたデバイス上でのLDMを保護するシステム設計を提案する。
1) メモリ効率と高速推論(TEEメモリ内のモデルパラメータのキャッシュ)のジレンマに対処する。
2) 高性能でセキュアなニューラルプロセッシングユニット (NPU) の欠如により, リッチ実行環境 (REE) とTEEのタイムシェアリングが可能となった。
このアプローチには2つの重要なイノベーションが組み込まれています。
まず、LLM推論の決定論的メモリアクセスパターンを利用して、オンデマンドのパラメータをプリフェッチし、メモリ割り当て、I/O、復号化遅延を計算時に隠蔽する。
第2に、コドライバー設計を導入し、TEEに最小限のデータプレーンNPUドライバを作成し、本格的なREEドライバと協調する。
これにより、TEE TCBのサイズが小さくなり、NPUワールドスイッチ時のコントロールプレーンの再起動オーバーヘッドがなくなる。
我々は,新たなOpenHarmony OSとllama.cpp推論フレームワーク上に実装し,Arm Rockchipデバイス上で様々なLSMを用いて評価した。
最適化に欠けるストローマンTEEベースラインと比較して、我々のシステムはTTFTを最大90.9%削減し、デコード速度を最大23.2%向上させる。
関連論文リスト
- Silentflow: Leveraging Trusted Execution for Resource-Limited MPC via Hardware-Algorithm Co-design [6.998260344481881]
我々はCOT生成における通信を排除するプロトコルであるSilentflowを紹介する。
エンドツーエンドのレイテンシとリソース要求のバランスをとり、最先端のプロトコルよりも39.51倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-08-18T21:00:10Z) - Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。
本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。
提案手法の有効性を数値解析により検証した。
論文 参考訳(メタデータ) (2024-11-04T17:48:02Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Memory-Efficient and Secure DNN Inference on TrustZone-enabled Consumer IoT Devices [9.928745904761358]
エッジインテリジェンスにより、元のデータを転送することなく、リソース要求のDeep Neural Network(DNN)推論が可能になる。
プライバシに敏感なアプリケーションでは、ハードウェアアイソレーションされた信頼できる実行環境(TEE)にモデルをデプロイすることが不可欠である。
我々は,モデル推論における包括的プライバシ保護を保証するため,TrustZoneにおける高度なモデル展開のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-19T09:22:50Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - RRNet: Towards ReLU-Reduced Neural Network for Two-party Computation
Based Private Inference [17.299835585861747]
本稿では,MPC比較プロトコルのオーバーヘッドを減らし,ハードウェアアクセラレーションによる計算を高速化するフレームワークRRNetを紹介する。
提案手法は,暗号ビルディングブロックのハードウェア遅延をDNN損失関数に統合し,エネルギー効率,精度,セキュリティ保証を改善する。
論文 参考訳(メタデータ) (2023-02-05T04:02:13Z) - PolyMPCNet: Towards ReLU-free Neural Architecture Search in Two-party
Computation Based Private Inference [23.795457990555878]
プライバシー保護型ディープラーニング(DL)計算を可能にするために,セキュアなマルチパーティ計算(MPC)が議論されている。
MPCは計算オーバーヘッドが非常に高く、大規模システムではその人気を阻害する可能性がある。
本研究では,MPC比較プロトコルとハードウェアアクセラレーションの協調オーバーヘッド削減のための,PolyMPCNetという体系的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-09-20T02:47:37Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。