論文の概要: PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic Sketch Collaboration
- arxiv url: http://arxiv.org/abs/2511.22788v1
- Date: Thu, 27 Nov 2025 22:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.723368
- Title: PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic Sketch Collaboration
- Title(参考訳): PRISM: セマンティックスケッチコラボレーションによる適応型クラウドエッジLLM推論のためのプライバシ対応ルーティング
- Authors: Junfei Zhan, Haoxun Shen, Zheng Lin, Tengjiao He,
- Abstract要約: プライバシと推論品質を動的にバランスさせるコンテキスト認識フレームワークを提案する。
PRISMは,(1)エッジデバイスがエンティティレベルの感度をプロファイルし,(2)エッジ上のソフトゲーティングモジュールが実行モード - クラウド,エッジ,あるいはコラボレーションを選択し,(3)協調経路に対して,(3)エッジがエンティティリスクに基づいて適応的な2層局所微分プライバシーを適用し,(4)クラウドLLMが乱れたプロンプトからセマンティックスケッチを生成する。
- 参考スコア(独自算出の注目度): 8.776463501718737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive capabilities in natural language understanding and generation, but incur high communication overhead and privacy risks in cloud deployments, while facing compute and memory constraints when confined to edge devices. Cloud-edge inference has emerged as a promising paradigm for improving privacy in LLM services by retaining sensitive computations on local devices. However, existing cloud-edge inference approaches apply uniform privacy protection without considering input sensitivity, resulting in unnecessary perturbation and degraded utility even for non-sensitive tokens. To address this limitation, we propose Privacy-aware Routing for Inference with Semantic Modulation (PRISM), a context-aware framework that dynamically balances privacy and inference quality. PRISM executes in four stages: (1) the edge device profiles entity-level sensitivity; (2) a soft gating module on the edge selects an execution mode - cloud, edge, or collaboration; (3) for collaborative paths, the edge applies adaptive two-layer local differential privacy based on entity risks; and (4) the cloud LLM generates a semantic sketch from the perturbed prompt, which is then refined by the edge-side small language model (SLM) using local context. Our results show that PRISM consistently achieves superior privacy-utility trade-offs across various scenarios, reducing energy consumption and latency to 40-50% of baseline methods such as Uniform and Selective LDP, while maintaining high output quality under strong privacy constraints. These findings are validated through comprehensive evaluations involving realistic prompts, actual energy measurements, and heterogeneous cloud-edge model deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成において素晴らしい能力を示すが、エッジデバイスに制限された場合、計算とメモリの制約に直面しながら、クラウドデプロイメントにおいて高い通信オーバーヘッドとプライバシリスクを引き起こす。
クラウドエッジ推論は、ローカルデバイスに機密計算を保持することで、LLMサービスのプライバシを改善するための有望なパラダイムとして登場した。
しかし、既存のクラウドエッジ推論アプローチでは、入力感度を考慮せずに、均一なプライバシ保護を適用しているため、不必要な摂動や非感受性トークンに対しても、実用性が低下する。
この制限に対処するため,プライバシと推論品質を動的にバランスさせるコンテキスト対応フレームワークであるPRISM(Privacy-aware Routing for Inference with Semantic Modulation)を提案する。
PRISMは,(1)エッジデバイスがエンティティレベルの感度をプロファイルする,(2)エッジ上のソフトゲーティングモジュールが実行モード - クラウド,エッジ,あるいはコラボレーションを選択する,(3)協調経路に対して,(3)エッジがエンティティリスクに基づいて適応的な2層局所微分プライバシーを適用する,(4)クラウドLLMが摂動プロンプトからセマンティックスケッチを生成し,それをローカルコンテキストを用いてエッジ側小言語モデル(SLM)によって洗練する,の4段階で実行される。
以上の結果から,PRISMは多種多様なシナリオにおいて優れたプライバシ・ユーティリティ・トレードオフを実現し,高いプライバシ制約下で高い出力品質を維持しつつ,エネルギー消費と遅延を均一性や選択LDPなどのベースライン手法の40~50%に削減できることがわかった。
これらの知見は、現実的なプロンプト、実際のエネルギー測定、異種クラウド-エッジモデル展開を含む包括的な評価を通じて検証される。
関連論文リスト
- Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs [61.15237978606501]
大規模言語モデルは、ユーザ生成テキストからプライベートなユーザー属性を推測することができる。
既存の匿名化ベースの防御は粗く、プライバシーを優先する要素を匿名化する際に単語レベルの精度が欠如している。
細粒度匿名化(TRACE)と推論防止最適化(RPS)を組み合わせた統合防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T03:37:50Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - Design and Optimization of Cloud Native Homomorphic Encryption Workflows for Privacy-Preserving ML Inference [0.0]
ホモモルフィック暗号化(HE)は、暗号化されたデータに対する暗号計算を可能にする魅力的な技術として登場した。
大規模クラウドネイティブパイプラインにおけるHEの統合は、高い計算オーバーヘッド、オーケストレーションの複雑さ、モデル互換性の問題によって制限されている。
本稿では、プライバシML推論をサポートするクラウドネイティブな同型暗号化の設計と最適化のための体系的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-28T15:13:32Z) - ALPINE: A Lightweight and Adaptive Privacy-Decision Agent Framework for Dynamic Edge Crowdsensing [34.752121524751466]
ALPINEは軽量で適応的なフレームワークで、端末デバイスがリアルタイムに差分プライバシーレベルを調整できるようにする。
環境リスク評価に基づいて、プライバシゲイン、データユーティリティ、エネルギーコストのバランスをとる報酬関数を設計する。
協調リスクモデルと事前訓練されたTD3ベースのエージェントの両方が、低オーバーヘッドデプロイメント用に設計されている。
論文 参考訳(メタデータ) (2025-10-20T05:03:25Z) - DP-FedLoRA: Privacy-Enhanced Federated Fine-Tuning for On-Device Large Language Models [17.265217612125905]
DP-FedLoRAは、プライバシーを強化したファインチューニングフレームワークである。
LoRAベースの適応と差分プライバシーを通信効率のよい環境で統合する。
DP-FedLoRAは、強力なプライバシ保証を提供しながら、競争性能を提供することを示す。
論文 参考訳(メタデータ) (2025-09-11T02:16:34Z) - Cloud-Device Collaborative Agents for Sequential Recommendation [36.05863003744828]
大規模言語モデル(LLM)は、強力な意味理解と柔軟な推論機能を備えたエージェントベースのレコメンデーションシステムを実現している。
LLMは強力なパーソナライズを提供するが、プライバシの懸念やリアルタイム信号へのアクセス制限、スケーラビリティのボトルネックに悩まされることが多い。
本稿では,2つのエージェントを駆使したシーケンシャルレコメンデーションのための新しいクラウド・デバイス協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T15:28:11Z) - RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting [17.294176570269]
本稿では,複合報酬関数を用いた大規模言語モデル(LLM)を微調整する強化学習フレームワークを提案する。
プライバシ報酬は、セマンティックキューと、潜伏表現上の最小スパンニングツリー(MST)から派生した構造パターンを組み合わせる。
実験の結果,提案手法はセマンティック品質を劣化させることなく,著者の難読化とプライバシーの指標を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T04:38:19Z) - CoSteer: Collaborative Decoding-Time Personalization via Local Delta Steering [80.54309860395763]
CoSteerは、ローカライズされたデルタステアリングを通じてデコード時のパーソナライズを可能にする、新しいコラボレーティブフレームワークである。
トークンレベルの最適化をオンライン学習問題として定式化し、ローカルデルタベクトルがリモートLLMのロジットを動的に調整する。
このアプローチは、生のデータや中間ベクトルではなく、最後のステアリングトークンのみを送信することで、プライバシを保護します。
論文 参考訳(メタデータ) (2025-07-07T08:32:29Z) - PWC-MoE: Privacy-Aware Wireless Collaborative Mixture of Experts [59.5243730853157]
クラウドサーバにホストされる大規模言語モデル(LLM)は、ローカルデバイス上の計算とストレージの負担を軽減するが、プライバシの懸念を高める。
小規模言語モデル(SLM)は、ローカルで実行されるためプライバシーが向上するが、複雑なタスクではパフォーマンスが制限される。
帯域幅制約下での計算コスト,性能,プライバシ保護のバランスをとるために,プライバシを意識したPWC-MoE(PWC-MoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:27:07Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Split-and-Denoise: Protect large language model inference with local differential privacy [2.572566198588905]
Split-N-Denoise (SnD) はプライベートな推論フレームワークであり、最小の計算コストでクライアント側でトークン埋め込み層を実行するためにモデルを分割する。
各種LLMアーキテクチャおよび下流タスク間のプライバシ・ユーティリティ・トレードオフを最適化する上で,SnDの有効性を示す。
論文 参考訳(メタデータ) (2023-10-13T14:17:33Z) - Over-the-Air Federated Learning with Privacy Protection via Correlated
Additive Perturbations [57.20885629270732]
我々は、複数のユーザ/エージェントからエッジサーバへの勾配更新をOtA(Over-the-Air)で送信することで、無線フェデレーション学習のプライバシー面を考察する。
従来の摂動に基づく手法は、トレーニングの精度を犠牲にしてプライバシー保護を提供する。
本研究では,エッジサーバにおけるプライバシリークの最小化とモデル精度の低下を目標とする。
論文 参考訳(メタデータ) (2022-10-05T13:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。