論文の概要: PII-Scope: A Benchmark for Training Data PII Leakage Assessment in LLMs
- arxiv url: http://arxiv.org/abs/2410.06704v1
- Date: Wed, 9 Oct 2024 09:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:10:03.580661
- Title: PII-Scope: A Benchmark for Training Data PII Leakage Assessment in LLMs
- Title(参考訳): PII-Scope: LLMにおけるデータPII漏洩評価のベンチマーク
- Authors: Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, Xue Jiang, Xuebing Zhou,
- Abstract要約: LLMを対象としたPII抽出攻撃の最先端手法を評価するための総合ベンチマークであるPII-Scopeを紹介する。
我々は、より現実的な攻撃シナリオに研究を拡張し、高度な敵戦略を用いたPII攻撃を探索する。
PII抽出速度は,高度な対数能力とクエリ予算の制限により,事前学習モデルをターゲットにした場合,最大5倍に向上することを示した。
- 参考スコア(独自算出の注目度): 8.98944128441731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce PII-Scope, a comprehensive benchmark designed to evaluate state-of-the-art methodologies for PII extraction attacks targeting LLMs across diverse threat settings. Our study provides a deeper understanding of these attacks by uncovering several hyperparameters (e.g., demonstration selection) crucial to their effectiveness. Building on this understanding, we extend our study to more realistic attack scenarios, exploring PII attacks that employ advanced adversarial strategies, including repeated and diverse querying, and leveraging iterative learning for continual PII extraction. Through extensive experimentation, our results reveal a notable underestimation of PII leakage in existing single-query attacks. In fact, we show that with sophisticated adversarial capabilities and a limited query budget, PII extraction rates can increase by up to fivefold when targeting the pretrained model. Moreover, we evaluate PII leakage on finetuned models, showing that they are more vulnerable to leakage than pretrained models. Overall, our work establishes a rigorous empirical benchmark for PII extraction attacks in realistic threat scenarios and provides a strong foundation for developing effective mitigation strategies.
- Abstract(参考訳): 本研究では,多種多様な脅威設定を対象とするPII抽出攻撃の最先端手法を評価するための総合ベンチマークであるPII-Scopeを紹介する。
本研究は、これらの攻撃について、その効果に不可欠ないくつかのハイパーパラメータ(例:デモ選択)を明らかにすることによって、より深い理解を提供する。
この理解に基づいて、我々は研究をより現実的な攻撃シナリオにまで拡張し、反復的および多種多様なクエリを含む高度な敵戦略を用いたPII攻撃を探索し、継続的なPII抽出に反復学習を活用する。
大規模な実験により,既存のシングルクエリー攻撃におけるPII漏洩の顕著な過小評価が明らかとなった。
実際、高度な対数能力と限られたクエリ予算により、事前訓練されたモデルをターゲットにした場合、PII抽出率は最大5倍に向上することを示した。
さらに、微調整モデル上でのPIIリークを評価し、事前訓練モデルよりもリークに対して脆弱であることを示す。
全体として、本研究は、現実的な脅威シナリオにおけるPII抽出攻撃の厳密な実証的ベンチマークを確立し、効果的な緩和戦略を開発するための強力な基盤を提供する。
関連論文リスト
- FEDLAD: Federated Evaluation of Deep Leakage Attacks and Defenses [50.921333548391345]
フェデレーテッド・ラーニング(Federated Learning)は、分散型機械学習パラダイムをプライバシ保護するものだ。
近年の研究では、Deep Leakageと呼ばれる勾配技術によって、民間の真実データを復元できることが判明している。
本稿では、Deep Leakage攻撃と防御を評価するための総合的なベンチマークであるFEDLAD Framework(Federated Evaluation of Deep Leakage Attacks and Defenses)を紹介する。
論文 参考訳(メタデータ) (2024-11-05T11:42:26Z) - DV-FSR: A Dual-View Target Attack Framework for Federated Sequential Recommendation [4.980393474423609]
フェデレートされたレコメンデーション(FedRec)は、パーソナライズされたモデルの分散トレーニングを可能にすることによって、ユーザのプライバシを保護します。
本稿では,DV-FSRと呼ばれる新しいデュアルビューアタックフレームワークを提案する。このフレームワークは,サンプリングに基づく明示的戦略と対照的な学習に基づく暗黙的勾配戦略を組み合わせて,協調攻撃を編成する。
論文 参考訳(メタデータ) (2024-09-10T15:24:13Z) - Membership Inference Attacks Against In-Context Learning [26.57639819629732]
In-Context Learning (ICL) に適した最初のメンバシップ推論攻撃を提案する。
様々な制約シナリオに合わせた4つの攻撃戦略を提案する。
本稿では,データ,命令,出力を対象とする3つの潜在的防御について検討する。
論文 参考訳(メタデータ) (2024-09-02T17:23:23Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - The Space of Adversarial Strategies [6.295859509997257]
機械学習モデルにおける最悪のケース動作を誘発するインプットである逆例は、過去10年間に広く研究されてきた。
最悪の場合(すなわち最適な)敵を特徴づける体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-09T20:53:11Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。