論文の概要: Safeguarding LLM Embeddings in End-Cloud Collaboration via Entropy-Driven Perturbation
- arxiv url: http://arxiv.org/abs/2503.12896v1
- Date: Mon, 17 Mar 2025 07:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:58:29.001115
- Title: Safeguarding LLM Embeddings in End-Cloud Collaboration via Entropy-Driven Perturbation
- Title(参考訳): エントロピー駆動摂動によるエンドクラウド協調におけるLLM埋め込みの保護
- Authors: Shuaifan Jin, Xiaoyi Pang, Zhibo Wang, He Wang, Jiacheng Du, Jiahui Hu, Kui Ren,
- Abstract要約: EntroGuardはエントロピー駆動の埋め込みプライバシー保護手法である。
エンドツーエンドのコラボレーションにおいて、検索精度を維持しながら、テキスト埋め込みのプライバシを保護することができる。
- 参考スコア(独自算出の注目度): 16.419373701694067
- License:
- Abstract: Recent studies improve on-device language model (LM) inference through end-cloud collaboration, where the end device retrieves useful information from cloud databases to enhance local processing, known as Retrieval-Augmented Generation (RAG). Typically, to retrieve information from the cloud while safeguarding privacy, the end device transforms original data into embeddings with a local embedding model. However, the recently emerging Embedding Inversion Attacks (EIAs) can still recover the original data from text embeddings (e.g., training a recovery model to map embeddings back to original texts), posing a significant threat to user privacy. To address this risk, we propose EntroGuard, an entropy-driven perturbation-based embedding privacy protection method, which can protect the privacy of text embeddings while maintaining retrieval accuracy during the end-cloud collaboration. Specifically, to defeat various EIAs, we perturb the embeddings to increase the entropy of the recovered text in the common structure of recovery models, thus steering the embeddings toward meaningless texts rather than original sensitive texts during the recovery process. To maintain retrieval performance in the cloud, we constrain the perturbations within a bound, applying the strategy of reducing them where redundant and increasing them where sparse. Moreover, EntroGuard can be directly integrated into end devices without requiring any modifications to the embedding model. Extensive experimental results demonstrate that EntroGuard can reduce the risk of privacy leakage by up to 8 times at most with negligible loss of retrieval performance compared to existing privacy-preserving methods.
- Abstract(参考訳): 近年の研究では、エンドユーザがクラウドデータベースから有用な情報を検索してローカル処理を強化し、Retrieval-Augmented Generation (RAG)と呼ばれる言語モデル(LM)推論を改善している。
通常、プライバシを保護しながらクラウドから情報を取得するために、エンドデバイスはオリジナルのデータをローカルな埋め込みモデルで埋め込みに変換する。
しかし、最近登場した Embedding Inversion Attacks (EIAs) は、テキスト埋め込み(例えば、元のテキストに埋め込みをマッピングするリカバリモデルをトレーニングする)から元のデータを回復し、ユーザのプライバシに重大な脅威をもたらす。
このリスクに対処するため,エントロピー駆動型摂動型埋め込みプライバシー保護手法であるEntroGuardを提案する。
具体的には、様々なEIAを倒すために、回復モデルの共通構造において、回復したテキストのエントロピーを高めるために埋め込みを摂動させ、回復過程において元のセンシティブなテキストではなく、意味のないテキストに対して埋め込みを操る。
クラウド上での検索性能を維持するため,境界内の摂動を制限し,冗長な場所を減らし,疎い場所を増す戦略を適用した。
さらにEntroGuardは、埋め込みモデルを変更することなく、エンドデバイスに直接統合することができる。
大規模な実験結果から,EntroGuardは,従来のプライバシ保存手法と比較して,検索性能の低下が無視できるため,最大8倍のプライバシー漏洩のリスクを低減できることが示された。
関連論文リスト
- ALGEN: Few-shot Inversion Attacks on Textual Embeddings using Alignment and Generation [9.220337458064765]
ALGEN(alignment and generation)を用いたテキスト・エンベディング・インバージョン・アタックを提案する。
ALGEN攻撃はドメインや言語間で効果的に転送でき、重要な情報を明らかにする。
我々は,NLPに埋め込みアライメントを応用した新しいテキスト埋め込みインバージョンパラダイムを構築した。
論文 参考訳(メタデータ) (2025-02-16T23:11:13Z) - Mitigating Privacy Risks in LLM Embeddings from Embedding Inversion [21.83264152003852]
埋め込み型インバージョン攻撃を緩和する新しい防御機構であるEguardを導入する。
当社のアプローチは、高いパフォーマンスを維持しながら95%以上のトークンを反転から保護し、プライバシーリスクを著しく低減します。
論文 参考訳(メタデータ) (2024-11-06T14:42:41Z) - Subword Embedding from Bytes Gains Privacy without Sacrificing Accuracy and Complexity [5.7601856226895665]
本稿では,Bytes (SEB) からのSubword Embeddingを提案し,深層ニューラルネットワークを用いてサブワードをバイト列にエンコードする。
我々のソリューションは、効率や精度を犠牲にすることなく、プライバシを保ち、従来の手法よりも優れています。
機械翻訳、感情分析、言語モデリングにおいて、SEBは標準的なサブワード埋め込み手法よりも同等でより良い結果が得られることを検証した。
論文 参考訳(メタデータ) (2024-10-21T18:25:24Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Information Leakage from Embedding in Large Language Models [5.475800773759642]
本研究では,入力再構成攻撃によるプライバシー侵害の可能性を検討することを目的とする。
まず,モデルの隠れ状態からオリジナルテキストを再構築する2つの基本手法を提案する。
次に、トランスフォーマーをベースとしたEmbed Parrotを提案し、深層への埋め込みから入力を再構築する。
論文 参考訳(メタデータ) (2024-05-20T09:52:31Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - InferDPT: Privacy-Preserving Inference for Black-box Large Language Model [66.07752875835506]
InferDPTは、ブラックボックスLSMのプライバシ保護推論のための最初の実用的なフレームワークである。
RANTEXTはInferDPTの摂動モジュールに組み込まれた新しい微分プライバシー機構である。
論文 参考訳(メタデータ) (2023-10-18T18:00:11Z) - Over-the-Air Federated Learning with Privacy Protection via Correlated
Additive Perturbations [57.20885629270732]
我々は、複数のユーザ/エージェントからエッジサーバへの勾配更新をOtA(Over-the-Air)で送信することで、無線フェデレーション学習のプライバシー面を考察する。
従来の摂動に基づく手法は、トレーニングの精度を犠牲にしてプライバシー保護を提供する。
本研究では,エッジサーバにおけるプライバシリークの最小化とモデル精度の低下を目標とする。
論文 参考訳(メタデータ) (2022-10-05T13:13:35Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - Robbing the Fed: Directly Obtaining Private Data in Federated Learning
with Modified Models [56.0250919557652]
フェデレーション学習は、ユーザーのプライバシーと効率を高めるという約束で急速に人気を集めている。
ユーザプライバシに対する以前の攻撃はスコープが限られており、少数のデータポイントに集約されたグラデーション更新にはスケールしない。
共有モデルアーキテクチャの最小限ではあるが悪意のある変更に基づく新しい脅威モデルを導入する。
論文 参考訳(メタデータ) (2021-10-25T15:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。