論文の概要: FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation
- arxiv url: http://arxiv.org/abs/2603.09046v1
- Date: Tue, 10 Mar 2026 00:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.913491
- Title: FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation
- Title(参考訳): FlexServe: 柔軟なリソース分離を備えたモバイルデバイスのための高速かつセキュアなLLMサービングシステム
- Authors: Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin Xia,
- Abstract要約: ARM TrustZoneは、モバイルデバイス上の事実上のハードウェアベースの分離技術である。
本稿では,モバイル端末向け高速かつセキュアなLarge Language Models (LLM) サービスシステムであるFlexServeを紹介する。
- 参考スコア(独自算出の注目度): 5.010910125757857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Device-side Large Language Models (LLMs) have witnessed explosive growth, offering higher privacy and availability compared to cloud-side LLMs. During LLM inference, both model weights and user data are valuable, and attackers may even compromise the OS kernel to steal them. ARM TrustZone is the de facto hardware-based isolation technology on mobile devices, used to protect sensitive applications from a compromised OS. However, protecting LLM inference with TrustZone incurs significant overhead due to its inflexible isolation of memory and the NPU. To address these challenges, this paper introduces FlexServe, a fast and secure LLM serving system for mobile devices. It first introduces a Flexible Resource Isolation mechanism to construct Flexible Secure Memory (Flex-Mem) and Flexible Secure NPU (Flex-NPU). Both memory pages and the NPU can be efficiently switched between unprotected and protected modes. Based on these mechanisms, FlexServe designs a fast and secure LLM inference framework within TrustZone's secure world. The LLM-Aware Memory Management and Secure Inference Pipeline are introduced to accelerate inference. A Multi-Model Scheduler is proposed to optimize multi-model workflows. We implement a prototype of FlexServe and compare it with two TrustZone-based strawman designs. The results show that FlexServe achieves an average $10.05\times$ speedup in Time to First Token (TTFT) compared to the strawman, and an average $2.44\times$ TTFT speedup compared to an optimized strawman with pipeline and secure NPU enabled. For multi-model agent workflows, the end-to-end speedup is up to $24.30\times$ and $4.05\times$ compared to the strawman and optimized strawman, respectively.
- Abstract(参考訳): デバイスサイドのLarge Language Models (LLMs)は、クラウドサイドのLLMよりも高いプライバシと可用性を提供する、爆発的な成長を目撃している。
LLM推論では、モデルウェイトとユーザデータの両方が重要であり、攻撃者はOSカーネルを侵害して盗むこともある。
ARM TrustZoneは、モバイルデバイス上の事実上のハードウェアベースのアイソレーション技術であり、機密性の高いアプリケーションを侵害されたOSから保護するために使用される。
しかし、TrustZoneによるLLM推論の保護は、メモリとNPUの非フレキシブルな分離のため、かなりのオーバーヘッドを引き起こす。
これらの課題に対処するために,モバイルデバイス用高速かつセキュアなLLMサービスシステムであるFlexServeを紹介する。
まず、フレキシブルなセキュアメモリ(Flex-Mem)とフレキシブルなセキュアNPU(Flex-NPU)を構築するためのフレキシブルなリソース分離メカニズムを導入する。
メモリページとNPUは、保護されていないモードと保護されていないモードの間で効率的に切り替えることができる。
これらのメカニズムに基づいてFlexServeはTrustZoneのセキュアな世界で高速かつセキュアなLLM推論フレームワークを設計した。
LLM-Aware Memory ManagementとSecure Inference Pipelineを導入し、推論を高速化する。
マルチモデルワークフローを最適化するためのマルチモデルスケジューリング手法を提案する。
We implement a prototype of FlexServe and compared it with two TrustZone-based strawman design。
その結果、FlexServeは、ストローマンと比較して平均10.05\times$ Time to First Token (TTFT)、パイプラインとセキュアなNPUを最適化したストローマンと比較して平均2.44\times$ TTFTスピードアップを達成した。
マルチモデルエージェントのワークフローでは、ストローマンと最適化ストローマンと比較して、エンドツーエンドのスピードアップは24.30ドルと4.05ドルである。
関連論文リスト
- HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone [8.538298365840877]
モバイルデバイスにデプロイされる大規模言語モデル(LLM)は、ユーザのプライバシやネットワーク遅延の低減といったメリットを提供するが、重大なセキュリティリスクをもたらす。
我々は、Arm Trusted Execution Environment (TEE)、TrustZoneを用いて、デバイス上でのLDMを保護するシステム設計を提案する。
論文 参考訳(メタデータ) (2025-11-17T18:59:20Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Fed MobiLLM: Efficient Federated LLM Fine-Tuning over Heterogeneous Mobile Devices via Server Assisted Side-Tuning [16.47223778897796]
不均一なモバイルデバイス上の大規模言語モデル(LLM)は、パーソナライズされたインテリジェンスの潜在的な応用を促進する。
従来のLLM FTは、モバイルハードウェア上での計算とメモリの負荷を禁止している。
我々は,多種多様な計算/通信速度と局所モデルアーキテクチャを持つモバイルデバイス間での効率的なLLM FTを実現するための新しい設計であるFed MobiLLMを提案する。
論文 参考訳(メタデータ) (2025-08-09T00:41:48Z) - BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。
UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文 参考訳(メタデータ) (2025-07-23T01:51:48Z) - FedSEA-LLaMA: A Secure, Efficient and Adaptive Federated Splitting Framework for Large Language Models [13.304846508027588]
LLaMA2に基づくセキュアで効率的で適応的なフェデレーション分割フレームワークであるFedSEA-LLaMAを紹介する。
我々は、注意マスク圧縮とKVキャッシュの協調を利用して、通信コストを削減し、トレーニングと推論を加速する。
自然言語理解、要約、会話型QAタスクの実験は、FedSEA-LLaMAが集中型LLaMA2に匹敵するパフォーマンスを維持していることを示している。
論文 参考訳(メタデータ) (2025-05-21T15:58:08Z) - FlexLLM: Token-Level Co-Serving of LLM Inference and Finetuning with SLO Guarantees [19.58773369944074]
タスク適応には、大規模な言語モデル(LLM)の微調整が不可欠だが、今日のサービススタックは、推論と個別のGPUクラスタ上での微調整を分離している。
本稿では,LLM推論とPEFTに基づく共通GPUのファインタニングをトークンレベルで融合した最初のシステムであるFlexLLMを紹介する。
実行時に、新しいトークンレベルの微調整機構がハイブリッドトークンスケジューラと組み合わせて、共用イテレーション毎に推論とトレーニングトークンを動的にインターリーブする。
論文 参考訳(メタデータ) (2024-02-29T01:33:08Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。