論文の概要: Membership Inference Attacks Against In-Context Learning
- arxiv url: http://arxiv.org/abs/2409.01380v1
- Date: Mon, 2 Sep 2024 17:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 04:14:12.737701
- Title: Membership Inference Attacks Against In-Context Learning
- Title(参考訳): インコンテキスト学習に対するメンバーシップ推論攻撃
- Authors: Rui Wen, Zheng Li, Michael Backes, Yang Zhang,
- Abstract要約: In-Context Learning (ICL) に適した最初のメンバシップ推論攻撃を提案する。
様々な制約シナリオに合わせた4つの攻撃戦略を提案する。
本稿では,データ,命令,出力を対象とする3つの潜在的防御について検討する。
- 参考スコア(独自算出の注目度): 26.57639819629732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting Large Language Models (LLMs) to specific tasks introduces concerns about computational efficiency, prompting an exploration of efficient methods such as In-Context Learning (ICL). However, the vulnerability of ICL to privacy attacks under realistic assumptions remains largely unexplored. In this work, we present the first membership inference attack tailored for ICL, relying solely on generated texts without their associated probabilities. We propose four attack strategies tailored to various constrained scenarios and conduct extensive experiments on four popular large language models. Empirical results show that our attacks can accurately determine membership status in most cases, e.g., 95\% accuracy advantage against LLaMA, indicating that the associated risks are much higher than those shown by existing probability-based attacks. Additionally, we propose a hybrid attack that synthesizes the strengths of the aforementioned strategies, achieving an accuracy advantage of over 95\% in most cases. Furthermore, we investigate three potential defenses targeting data, instruction, and output. Results demonstrate combining defenses from orthogonal dimensions significantly reduces privacy leakage and offers enhanced privacy assurances.
- Abstract(参考訳): LLM(Large Language Models)を特定のタスクに適応させると、計算効率に関する懸念が生じ、In-Context Learning (ICL)のような効率的な手法が探索される。
しかし、現実的な仮定の下でのプライバシー攻撃に対するICLの脆弱性はほとんど解明されていない。
本研究では,ICLに適した最初のメンバシップ推論攻撃について述べる。
様々な制約のあるシナリオに合わせた4つの攻撃戦略を提案し、4つの人気のある大規模言語モデルに対して広範な実験を行う。
実験の結果、LLaMAに対する95%の精度優位性など、ほとんどのケースにおいて、我々の攻撃が正確な会員資格を決定できることが示され、関連するリスクが既存の確率ベース攻撃よりもはるかに高いことが示唆された。
さらに、上記の戦略の強みを合成し、ほとんどの場合、95%以上の精度の利点を達成できるハイブリッド攻撃を提案する。
さらに,データ,命令,出力を対象とする3つの潜在的防御について検討する。
その結果、直交次元からの防御を組み合わせることで、プライバシーの漏洩が著しく減少し、プライバシーの保証が強化されることが示されている。
関連論文リスト
- Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models [32.03992137755351]
本研究は,大規模言語モデル(LLM)における安全性とプライバシ対策の推進的必要性に光を当てるものである。
本稿では,攻撃効果を定量的に測定するために,特定の方法でプロンプトを誘導する新しい手法であるCEIPAを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:26:14Z) - Unveiling the Unseen: Exploring Whitebox Membership Inference through the Lens of Explainability [10.632831321114502]
提案手法は, 生データの最も影響力のある特徴を識別し, メンバーシップ推論攻撃を成功に導くための, 攻撃駆動型説明可能なフレームワークを提案する。
提案したMIAは,最先端MIAの最大26%の改善を示す。
論文 参考訳(メタデータ) (2024-07-01T14:07:46Z) - Evaluating and Safeguarding the Adversarial Robustness of Retrieval-Based In-Context Learning [21.018893978967053]
In-Context Learning (ICL) は、プロンプトでデモをエンコードするために使用される選択、順序、動詞に敏感である。
Retrieval-Augmented ICLメソッドは、レトリバーを活用して、意味論的に関連する例を例示として抽出することで、この問題に対処しようとする。
本研究は, 検索強化モデルにより, 検体攻撃に対する堅牢性が向上することを明らかにする。
そこで本研究では,攻撃したサンプルを用いてサンプルプールを充実させる,効果的な訓練自由対人防御手法であるDARDを導入する。
論文 参考訳(メタデータ) (2024-05-24T23:56:36Z) - Goal-guided Generative Prompt Injection Attack on Large Language Models [6.175969971471705]
大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。
多数のユーザは、ユーザインターフェースを通じて、逆テキストや命令を容易に注入することができる。
これらの戦略が攻撃の成功率とどのように関係し、モデルセキュリティを効果的に改善するかは不明である。
論文 参考訳(メタデータ) (2024-04-06T06:17:10Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Curse or Redemption? How Data Heterogeneity Affects the Robustness of
Federated Learning [51.15273664903583]
データの不均一性は、フェデレートラーニングにおける重要な特徴の1つとして認識されているが、しばしば敵対的攻撃に対する堅牢性のレンズで見過ごされる。
本稿では, 複合学習におけるバックドア攻撃の影響を, 総合的な実験を通じて評価し, 理解することを目的とした。
論文 参考訳(メタデータ) (2021-02-01T06:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。