論文の概要: Differentially Private and Communication Efficient Large Language Model Split Inference via Stochastic Quantization and Soft Prompt
- arxiv url: http://arxiv.org/abs/2602.11513v1
- Date: Thu, 12 Feb 2026 03:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.614991
- Title: Differentially Private and Communication Efficient Large Language Model Split Inference via Stochastic Quantization and Soft Prompt
- Title(参考訳): 確率量子化とソフトプロンプトによる大規模言語モデルの分割推論
- Authors: Yujie Gu, Richeng Jin, Xiaoyu Ji, Yier Jin, Wenyuan Xu,
- Abstract要約: 大規模言語モデル (LLM) は目覚ましい性能を達成し、かなりの研究関心を集めている。
既存のアプローチでは、送信前にトークンの埋め込みを難読化し、ローカルモデルを使ってデノナイズする方法が提案されている。
textbfDifferentially private and communication textbfEfficient textbfLLM split inference。
- 参考スコア(独自算出の注目度): 33.701746954914135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance and received significant research interest. The enormous computational demands, however, hinder the local deployment on devices with limited resources. The current prevalent LLM inference paradigms require users to send queries to the service providers for processing, which raises critical privacy concerns. Existing approaches propose to allow the users to obfuscate the token embeddings before transmission and utilize local models for denoising. Nonetheless, transmitting the token embeddings and deploying local models may result in excessive communication and computation overhead, preventing practical implementation. In this work, we propose \textbf{DEL}, a framework for \textbf{D}ifferentially private and communication \textbf{E}fficient \textbf{L}LM split inference. More specifically, an embedding projection module and a differentially private stochastic quantization mechanism are proposed to reduce the communication overhead in a privacy-preserving manner. To eliminate the need for local models, we adapt soft prompt at the server side to compensate for the utility degradation caused by privacy. To the best of our knowledge, this is the first work that utilizes soft prompt to improve the trade-off between privacy and utility in LLM inference, and extensive experiments on text generation and natural language understanding benchmarks demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): 大規模言語モデル (LLM) は目覚ましい性能を達成し、かなりの研究関心を集めている。
しかし、膨大な計算要求により、限られたリソースを持つデバイスへのローカルなデプロイが妨げられる。
現在のLLM推論パラダイムでは、ユーザが処理のためにサービスプロバイダにクエリを送信する必要がある。
既存のアプローチでは、送信前にトークンの埋め込みを難読化し、ローカルモデルを使ってデノナイズする方法が提案されている。
それでも、トークンの埋め込みを送信し、ローカルモデルをデプロイすると、過剰な通信と計算オーバーヘッドが発生し、実用的な実装が妨げられる。
本研究は,textbf{D}LM 分割推論のためのフレームワークである \textbf{DEL} を提案する。
より具体的には、プライバシー保護方式で通信オーバーヘッドを低減するため、埋め込みプロジェクションモジュールと微分プライベート確率量子化機構を提案する。
ローカルモデルの必要性を排除するため、我々はサーバ側でソフトプロンプトを適用して、プライバシによるユーティリティ劣化を補う。
我々の知る限り、LLM推論におけるプライバシとユーティリティのトレードオフを改善するためにソフトプロンプトを利用する最初の研究であり、テキスト生成と自然言語理解ベンチマークに関する広範な実験が提案手法の有効性を実証している。
関連論文リスト
- Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - Boosting Private Domain Understanding of Efficient MLLMs: A Tuning-free, Adaptive, Universal Prompt Optimization Framework [60.26747209785186]
マルチモーダル大言語モデル(EMLLM)は、モデルのサイズと計算コストを削減し、しばしばリソース制約されたデバイスにデプロイされる。
既存のオープンソースLMは、事前トレーニングプロセス中にプライベートドメイン固有のデータにアクセスすることは滅多にない。
我々は,universtextbfunderlineAL textbfunderlinePrompt Optimization Framework, atextbfunderlineDaptivtextbfunderlineE, universtextbfunderlineAL textbfunderlinePrompt Optimization Frameworkを提案する。
論文 参考訳(メタデータ) (2024-12-27T15:21:17Z) - FedDTPT: Federated Discrete and Transferable Prompt Tuning for Black-Box Large Language Models [14.719919025265224]
特定のシナリオからのデータを調整した大きな言語モデル(LLM)は、プライバシリークのリスクを引き起こす。
ブラックボックス大言語モデルに対して,フェデレートされた離散的かつ転送可能なプロンプトチューニングであるFedDTPTを初めて提案する。
提案手法は,ブラックボックス設定における非IDデータに対する高い精度,通信オーバーヘッドの低減,ロバスト性を実現する。
論文 参考訳(メタデータ) (2024-11-01T19:19:23Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - ConfusionPrompt: Practical Private Inference for Online Large Language Models [3.8134804426693094]
最先端の大規模言語モデル(LLM)は一般的にオンラインサービスとしてデプロイされ、ユーザーはクラウドサーバーに詳細なプロンプトを送信する必要がある。
我々は,従来のプロンプトを小さなサブプロンプトに分解することで,ユーザのプライバシを保護する,プライベートLLM推論のための新しいフレームワークであるConfusionPromptを紹介する。
コンフュージョンプロンプトは,オープンソースモデルと摂動に基づく手法を用いて,局所的推論手法よりもはるかに高い実用性を実現することを示す。
論文 参考訳(メタデータ) (2023-12-30T01:26:42Z) - Split-and-Denoise: Protect large language model inference with local differential privacy [2.572566198588905]
Split-N-Denoise (SnD) はプライベートな推論フレームワークであり、最小の計算コストでクライアント側でトークン埋め込み層を実行するためにモデルを分割する。
各種LLMアーキテクチャおよび下流タスク間のプライバシ・ユーティリティ・トレードオフを最適化する上で,SnDの有効性を示す。
論文 参考訳(メタデータ) (2023-10-13T14:17:33Z) - DisPFL: Towards Communication-Efficient Personalized Federated Learning
via Decentralized Sparse Training [84.81043932706375]
本稿では,分散型(ピアツーピア)通信プロトコルであるDis-PFLにおいて,新たな個人化フェデレーション学習フレームワークを提案する。
Dis-PFLはパーソナライズされたスパースマスクを使用して、エッジ上のスパースローカルモデルをカスタマイズする。
本手法は,計算複雑性の異なる異種ローカルクライアントに容易に適応できることを実証する。
論文 参考訳(メタデータ) (2022-06-01T02:20:57Z) - DP-NormFedAvg: Normalizing Client Updates for Privacy-Preserving
Federated Learning [48.064786028195506]
我々は,クライアントに対して,大局的な情報の観点から,テキスト単位のみを定量化したバージョンを送信させることを提案する。
また、単位ノルムの新しい微分プライベート量子化機構であるQTDLを導入する。
論文 参考訳(メタデータ) (2021-06-13T21:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。