論文の概要: On the Privacy of LLMs: An Ablation Study
- arxiv url: http://arxiv.org/abs/2605.02255v1
- Date: Mon, 04 May 2026 06:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.15375
- Title: On the Privacy of LLMs: An Ablation Study
- Title(参考訳): LLMのプライバシーについて--アブレーション研究
- Authors: Karima Makhlouf, Lamiaa Basyoni, Syed Khaderi, Gabriel Marquez, Peter Sotomango, Mahmoud Awawdah, Sami Zhioua,
- Abstract要約: 大規模言語モデル(LLM)は、対話的および検索強化された設定にますますデプロイされている。
我々は、統一的な脅威モデルと表記を導入し、一連のプライバシー攻撃を再現し、構造化されたアブレーション研究を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in interactive and retrieval-augmented settings, raising significant privacy concerns. While attacks such as Membership Inference (MIA), Attribute Inference (AIA), Data Extraction (DEA), and Backdoor Attacks (BA) have been studied, they are typically analyzed in isolation, leaving a gap in understanding their behavior under common system factors. In this paper, we introduce a unified threat model and notation, reproduce a representative set of privacy attacks, and conduct a structured ablation study to evaluate the impact of key factors such as model architecture, scale, dataset characteristics, and retrieval configuration. Our analysis reveals clear differences across attack types. Membership inference attacks, particularly mask-based variants, exhibit strong and reliable signals, while backdoor attacks achieve consistently high success rates due to their trigger-based nature. In contrast, attribute inference and data extraction attacks remain more challenging, resulting in lower accuracy, yet they pose significant risks as they target sensitive personal information. Overall, these results highlight that privacy risks in LLM systems are highly context-dependent and driven by design choices, emphasizing the need for holistic evaluation and informed deployment practices.
- Abstract(参考訳): 大規模言語モデル(LLM)は、対話的かつ検索強化された設定にますますデプロイされ、プライバシー上の懸念を生じさせている。
メンバーシップ推論(MIA)、属性推論(AIA)、データ抽出(DEA)、バックドア攻撃(BA)などの攻撃が研究されているが、通常は分離して分析され、共通のシステム要因下での行動理解のギャップが残る。
本稿では,統一的な脅威モデルと表記を導入し,プライバシ攻撃の代表的なセットを再現し,モデルアーキテクチャやスケール,データセット特性,検索設定といった重要な要因の影響を評価するための構造化アブレーション研究を行う。
分析の結果,攻撃の種類によって明らかな差異が認められた。
メンバーシップ推論攻撃(特にマスクベースの変種)は強力で信頼性の高い信号を示し、バックドア攻撃はトリガーベースの性質により一貫して高い成功率を達成する。
対照的に、属性推論とデータ抽出攻撃はより困難であり、精度は低下するが、機密性の高い個人情報を標的にすると重大なリスクが生じる。
これらの結果から,LLMシステムにおけるプライバシリスクはコンテキスト依存的であり,設計上の選択によって引き起こされていることが示唆された。
関連論文リスト
- Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation [50.87199039334856]
Retrieval-Augmented Generation (RAG) は知識集約型アプリケーションの基礎となっている。
近年の研究では、悪意あるクエリによって知識抽出攻撃が機密知識ベースコンテンツを回復できることが示されている。
本稿では,RAGシステムに対する知識抽出攻撃のための最初の体系的ベンチマークを紹介する。
論文 参考訳(メタデータ) (2026-02-10T01:27:46Z) - Differential Privacy: Gradient Leakage Attacks in Federated Learning Environments [0.6850683267295249]
フェデレート・ラーニング(FL)は、センシティブなデータを共有せずに、協調的に機械学習モデルのトレーニングを可能にする。
Gradient Leakage Attacks (GLAs)は、共有モデルの更新からプライベート情報を公開することができる。
GLAに対する防衛手段としての差別化プライバシメカニズムの有効性について検討する。
論文 参考訳(メタデータ) (2025-10-27T23:33:21Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Evaluating the Dynamics of Membership Privacy in Deep Learning [9.899573367308506]
メンバーシップ推論攻撃(MIA)は、ディープラーニングにおけるトレーニングデータのプライバシーに重大な脅威をもたらす。
本稿では,個々のサンプルレベルでのプライバシー漏洩ダイナミクスの分離と定量化のための動的解析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T07:09:52Z) - When Better Features Mean Greater Risks: The Performance-Privacy Trade-Off in Contrastive Learning [9.660010886245155]
本稿では,エンコーダモデルを対象としたMIA攻撃によるプライバシの脅威を系統的に検討する。
本稿では,Lp-Norm Likelihood Attack (LpLA) と呼ばれる特徴ベクトルのpノルムに基づく新しいメンバシップ推論攻撃法を提案する。
論文 参考訳(メタデータ) (2025-06-06T05:03:29Z) - Unveiling the Unseen: Exploring Whitebox Membership Inference through the Lens of Explainability [10.632831321114502]
提案手法は, 生データの最も影響力のある特徴を識別し, メンバーシップ推論攻撃を成功に導くための, 攻撃駆動型説明可能なフレームワークを提案する。
提案したMIAは,最先端MIAの最大26%の改善を示す。
論文 参考訳(メタデータ) (2024-07-01T14:07:46Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Curse or Redemption? How Data Heterogeneity Affects the Robustness of
Federated Learning [51.15273664903583]
データの不均一性は、フェデレートラーニングにおける重要な特徴の1つとして認識されているが、しばしば敵対的攻撃に対する堅牢性のレンズで見過ごされる。
本稿では, 複合学習におけるバックドア攻撃の影響を, 総合的な実験を通じて評価し, 理解することを目的とした。
論文 参考訳(メタデータ) (2021-02-01T06:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。