論文の概要: Enhancing Leakage Attacks on Searchable Symmetric Encryption Using LLM-Based Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2504.20414v1
- Date: Tue, 29 Apr 2025 04:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.750473
- Title: Enhancing Leakage Attacks on Searchable Symmetric Encryption Using LLM-Based Synthetic Data Generation
- Title(参考訳): LLMに基づく合成データ生成を用いた検索可能な対称暗号化における漏洩攻撃の軽減
- Authors: Joshua Chiu, Partha Protim Paul, Zahin Wahab,
- Abstract要約: Searchable Symmetric Encryption (SSE)は、暗号化されたデータに対する効率的な検索機能を提供する。
SSEスキームは、アクセスパターン、検索周波数、ボリューム情報を利用する漏洩攻撃に対して脆弱である。
本稿では,大規模言語モデル(LLM),特にGPT-4の変種を利用して,エンロンメールの現実のデータセットに統計的・意味的に類似した合成文書を生成する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Searchable Symmetric Encryption (SSE) enables efficient search capabilities over encrypted data, allowing users to maintain privacy while utilizing cloud storage. However, SSE schemes are vulnerable to leakage attacks that exploit access patterns, search frequency, and volume information. Existing studies frequently assume that adversaries possess a substantial fraction of the encrypted dataset to mount effective inference attacks, implying there is a database leakage of such documents, thus, an assumption that may not hold in real-world scenarios. In this work, we investigate the feasibility of enhancing leakage attacks under a more realistic threat model in which adversaries have access to minimal leaked data. We propose a novel approach that leverages large language models (LLMs), specifically GPT-4 variants, to generate synthetic documents that statistically and semantically resemble the real-world dataset of Enron emails. Using the email corpus as a case study, we evaluate the effectiveness of synthetic data generated via random sampling and hierarchical clustering methods on the performance of the SAP (Search Access Pattern) keyword inference attack restricted to token volumes only. Our results demonstrate that, while the choice of LLM has limited effect, increasing dataset size and employing clustering-based generation significantly improve attack accuracy, achieving comparable performance to attacks using larger amounts of real data. We highlight the growing relevance of LLMs in adversarial contexts.
- Abstract(参考訳): Searchable Symmetric Encryption (SSE)は、暗号化されたデータに対する効率的な検索機能を提供する。
しかし、SSEスキームは、アクセスパターン、検索周波数、ボリューム情報を利用する漏洩攻撃に対して脆弱である。
既存の研究は、敵が効果的な推論攻撃をマウントするために暗号化されたデータセットのかなりの部分を持っているとしばしば仮定しており、そのような文書のデータベースリークが存在することを示唆している。
本研究では,敵が最小限の漏洩データにアクセス可能な,より現実的な脅威モデル下での漏洩攻撃の強化の可能性を検討する。
本稿では,大規模言語モデル(LLM),特にGPT-4の変種を利用して,エンロンメールの現実のデータセットに統計的・意味的に類似した合成文書を生成する手法を提案する。
メールコーパスをケーススタディとして,ランダムサンプリングおよび階層クラスタリング手法を用いて生成された合成データの有効性を,トークンボリュームに限定したSAPキーワード推論攻撃の性能に対して評価した。
以上の結果から,LLMの選択には限界があり,データセットのサイズが増加し,クラスタリングに基づく生成が攻撃精度を著しく向上することが明らかとなった。
我々は、敵対的文脈におけるLLMの増大する関連性を強調した。
関連論文リスト
- The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、事前訓練された大規模言語モデル(LLM)を微調整するために使用されるデータをターゲットにした会員推論攻撃(MIA)を設計する。
このようなデータに基づくMIAは、ランダムな推測よりもはるかに優れていることを示し、これは、合成データがトレーニングデータに関する情報を漏洩することを意味する。
この問題に対処するために、自動回帰モデルの力学を活用して、非分配プレフィックスと高パープレキサフィックスを備えたカナリアを設計する。
論文 参考訳(メタデータ) (2025-02-19T15:30:30Z) - Large Language Models Merging for Enhancing the Link Stealing Attack on Graph Neural Networks [10.807912659961012]
グラフデータに対するリンク盗難攻撃は、重大なプライバシー上の脅威となる。
攻撃者は複数の攻撃者のデータ知識を組み合わせることで、より効果的な攻撃モデルを構築することができる。
本稿では,クロスデータセットと大規模言語モデルを利用したリンク盗難攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T06:37:05Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data [1.5293427903448022]
合成データに対する新しい属性推論攻撃を導入する。
攻撃は任意の記録でも極めて正確であることを示す。
次に、プライバシー保護と統計ユーティリティ保護のトレードオフを評価する。
論文 参考訳(メタデータ) (2023-01-24T14:56:36Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。