論文の概要: PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic Sketch Collaboration
- arxiv url: http://arxiv.org/abs/2511.22788v1
- Date: Thu, 27 Nov 2025 22:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.723368
- Title: PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic Sketch Collaboration
- Title(参考訳): PRISM: セマンティックスケッチコラボレーションによる適応型クラウドエッジLLM推論のためのプライバシ対応ルーティング
- Authors: Junfei Zhan, Haoxun Shen, Zheng Lin, Tengjiao He,
- Abstract要約: プライバシと推論品質を動的にバランスさせるコンテキスト認識フレームワークを提案する。
PRISMは,(1)エッジデバイスがエンティティレベルの感度をプロファイルし,(2)エッジ上のソフトゲーティングモジュールが実行モード - クラウド,エッジ,あるいはコラボレーションを選択し,(3)協調経路に対して,(3)エッジがエンティティリスクに基づいて適応的な2層局所微分プライバシーを適用し,(4)クラウドLLMが乱れたプロンプトからセマンティックスケッチを生成する。
- 参考スコア(独自算出の注目度): 8.776463501718737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive capabilities in natural language understanding and generation, but incur high communication overhead and privacy risks in cloud deployments, while facing compute and memory constraints when confined to edge devices. Cloud-edge inference has emerged as a promising paradigm for improving privacy in LLM services by retaining sensitive computations on local devices. However, existing cloud-edge inference approaches apply uniform privacy protection without considering input sensitivity, resulting in unnecessary perturbation and degraded utility even for non-sensitive tokens. To address this limitation, we propose Privacy-aware Routing for Inference with Semantic Modulation (PRISM), a context-aware framework that dynamically balances privacy and inference quality. PRISM executes in four stages: (1) the edge device profiles entity-level sensitivity; (2) a soft gating module on the edge selects an execution mode - cloud, edge, or collaboration; (3) for collaborative paths, the edge applies adaptive two-layer local differential privacy based on entity risks; and (4) the cloud LLM generates a semantic sketch from the perturbed prompt, which is then refined by the edge-side small language model (SLM) using local context. Our results show that PRISM consistently achieves superior privacy-utility trade-offs across various scenarios, reducing energy consumption and latency to 40-50% of baseline methods such as Uniform and Selective LDP, while maintaining high output quality under strong privacy constraints. These findings are validated through comprehensive evaluations involving realistic prompts, actual energy measurements, and heterogeneous cloud-edge model deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成において素晴らしい能力を示すが、エッジデバイスに制限された場合、計算とメモリの制約に直面しながら、クラウドデプロイメントにおいて高い通信オーバーヘッドとプライバシリスクを引き起こす。
クラウドエッジ推論は、ローカルデバイスに機密計算を保持することで、LLMサービスのプライバシを改善するための有望なパラダイムとして登場した。
しかし、既存のクラウドエッジ推論アプローチでは、入力感度を考慮せずに、均一なプライバシ保護を適用しているため、不必要な摂動や非感受性トークンに対しても、実用性が低下する。
この制限に対処するため,プライバシと推論品質を動的にバランスさせるコンテキスト対応フレームワークであるPRISM(Privacy-aware Routing for Inference with Semantic Modulation)を提案する。
PRISMは,(1)エッジデバイスがエンティティレベルの感度をプロファイルする,(2)エッジ上のソフトゲーティングモジュールが実行モード - クラウド,エッジ,あるいはコラボレーションを選択する,(3)協調経路に対して,(3)エッジがエンティティリスクに基づいて適応的な2層局所微分プライバシーを適用する,(4)クラウドLLMが摂動プロンプトからセマンティックスケッチを生成し,それをローカルコンテキストを用いてエッジ側小言語モデル(SLM)によって洗練する,の4段階で実行される。
以上の結果から,PRISMは多種多様なシナリオにおいて優れたプライバシ・ユーティリティ・トレードオフを実現し,高いプライバシ制約下で高い出力品質を維持しつつ,エネルギー消費と遅延を均一性や選択LDPなどのベースライン手法の40~50%に削減できることがわかった。
これらの知見は、現実的なプロンプト、実際のエネルギー測定、異種クラウド-エッジモデル展開を含む包括的な評価を通じて検証される。
関連論文リスト
- Design and Optimization of Cloud Native Homomorphic Encryption Workflows for Privacy-Preserving ML Inference [0.0]
ホモモルフィック暗号化(HE)は、暗号化されたデータに対する暗号計算を可能にする魅力的な技術として登場した。
大規模クラウドネイティブパイプラインにおけるHEの統合は、高い計算オーバーヘッド、オーケストレーションの複雑さ、モデル互換性の問題によって制限されている。
本稿では、プライバシML推論をサポートするクラウドネイティブな同型暗号化の設計と最適化のための体系的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-28T15:13:32Z) - DP-FedLoRA: Privacy-Enhanced Federated Fine-Tuning for On-Device Large Language Models [17.265217612125905]
DP-FedLoRAは、プライバシーを強化したファインチューニングフレームワークである。
LoRAベースの適応と差分プライバシーを通信効率のよい環境で統合する。
DP-FedLoRAは、強力なプライバシ保証を提供しながら、競争性能を提供することを示す。
論文 参考訳(メタデータ) (2025-09-11T02:16:34Z) - Cloud-Device Collaborative Agents for Sequential Recommendation [36.05863003744828]
大規模言語モデル(LLM)は、強力な意味理解と柔軟な推論機能を備えたエージェントベースのレコメンデーションシステムを実現している。
LLMは強力なパーソナライズを提供するが、プライバシの懸念やリアルタイム信号へのアクセス制限、スケーラビリティのボトルネックに悩まされることが多い。
本稿では,2つのエージェントを駆使したシーケンシャルレコメンデーションのための新しいクラウド・デバイス協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T15:28:11Z) - CoSteer: Collaborative Decoding-Time Personalization via Local Delta Steering [80.54309860395763]
CoSteerは、ローカライズされたデルタステアリングを通じてデコード時のパーソナライズを可能にする、新しいコラボレーティブフレームワークである。
トークンレベルの最適化をオンライン学習問題として定式化し、ローカルデルタベクトルがリモートLLMのロジットを動的に調整する。
このアプローチは、生のデータや中間ベクトルではなく、最後のステアリングトークンのみを送信することで、プライバシを保護します。
論文 参考訳(メタデータ) (2025-07-07T08:32:29Z) - PWC-MoE: Privacy-Aware Wireless Collaborative Mixture of Experts [59.5243730853157]
クラウドサーバにホストされる大規模言語モデル(LLM)は、ローカルデバイス上の計算とストレージの負担を軽減するが、プライバシの懸念を高める。
小規模言語モデル(SLM)は、ローカルで実行されるためプライバシーが向上するが、複雑なタスクではパフォーマンスが制限される。
帯域幅制約下での計算コスト,性能,プライバシ保護のバランスをとるために,プライバシを意識したPWC-MoE(PWC-MoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:27:07Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Split-and-Denoise: Protect large language model inference with local differential privacy [2.572566198588905]
Split-N-Denoise (SnD) はプライベートな推論フレームワークであり、最小の計算コストでクライアント側でトークン埋め込み層を実行するためにモデルを分割する。
各種LLMアーキテクチャおよび下流タスク間のプライバシ・ユーティリティ・トレードオフを最適化する上で,SnDの有効性を示す。
論文 参考訳(メタデータ) (2023-10-13T14:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。