論文の概要: Privacy Evaluation Benchmarks for NLP Models
- arxiv url: http://arxiv.org/abs/2409.15868v3
- Date: Tue, 01 Oct 2024 03:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:37.978142
- Title: Privacy Evaluation Benchmarks for NLP Models
- Title(参考訳): NLPモデルのプライバシ評価ベンチマーク
- Authors: Wei Huang, Yinggui Wang, Cen Chen,
- Abstract要約: NLP分野におけるプライバシ攻撃と防衛評価のベンチマークを示す。
このベンチマークは、さまざまなモデル、データセット、プロトコルをサポートし、攻撃と防御戦略の包括的な評価のための標準化されたモジュールをサポートする。
プライバシ攻撃のための連鎖したフレームワークを提案する。複数の攻撃をチェーンして、より高いレベルの攻撃目標を達成する。
- 参考スコア(独自算出の注目度): 16.158384185081932
- License:
- Abstract: By inducing privacy attacks on NLP models, attackers can obtain sensitive information such as training data and model parameters, etc. Although researchers have studied, in-depth, several kinds of attacks in NLP models, they are non-systematic analyses. It lacks a comprehensive understanding of the impact caused by the attacks. For example, we must consider which scenarios can apply to which attacks, what the common factors are that affect the performance of different attacks, the nature of the relationships between different attacks, and the influence of various datasets and models on the effectiveness of the attacks, etc. Therefore, we need a benchmark to holistically assess the privacy risks faced by NLP models. In this paper, we present a privacy attack and defense evaluation benchmark in the field of NLP, which includes the conventional/small models and large language models (LLMs). This benchmark supports a variety of models, datasets, and protocols, along with standardized modules for comprehensive evaluation of attacks and defense strategies. Based on the above framework, we present a study on the association between auxiliary data from different domains and the strength of privacy attacks. And we provide an improved attack method in this scenario with the help of Knowledge Distillation (KD). Furthermore, we propose a chained framework for privacy attacks. Allowing a practitioner to chain multiple attacks to achieve a higher-level attack objective. Based on this, we provide some defense and enhanced attack strategies. The code for reproducing the results can be found at https://github.com/user2311717757/nlp_doctor.
- Abstract(参考訳): NLPモデルに対するプライバシ攻撃を誘導することにより、攻撃者はトレーニングデータやモデルパラメータなどの機密情報を得ることができる。
研究者は、NLPモデルにおけるいくつかの種類の攻撃について詳細に研究してきたが、それらは非系統解析である。
攻撃による影響の包括的理解が欠如している。
例えば、どの攻撃にどのシナリオが適用できるか、異なる攻撃のパフォーマンスに影響を与える共通の要因、異なる攻撃間の関係の性質、攻撃の有効性に対するさまざまなデータセットやモデルの影響などを考慮しなければなりません。
したがって、NLPモデルが直面するプライバシーリスクを全体評価するベンチマークが必要である。
本稿では,従来の/小モデルと大規模言語モデル(LLM)を含むNLP分野におけるプライバシ攻撃・防衛評価ベンチマークを提案する。
このベンチマークは、さまざまなモデル、データセット、プロトコルをサポートし、攻撃と防御戦略の包括的な評価のための標準化されたモジュールをサポートする。
以上の枠組みに基づいて、異なるドメインからの補助データとプライバシ攻撃の強さとの関係について検討する。
また,このシナリオにおいて,知識蒸留(KD)の助けを借りて,より優れた攻撃方法を提案する。
さらに,プライバシ攻撃のための連鎖フレームワークを提案する。
高いレベルの攻撃目標を達成するために、実践者が複数の攻撃をチェーンできる。
これに基づいて、防衛戦略と強化攻撃戦略を提供する。
結果を再現するコードはhttps://github.com/user2311717757/nlp_doctor.comで見ることができる。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Towards Attack-tolerant Federated Learning via Critical Parameter
Analysis [85.41873993551332]
フェデレートされた学習システムは、悪意のあるクライアントが中央サーバーに誤ったアップデートを送信すると、攻撃を害するおそれがある。
本稿では,新たな防衛戦略であるFedCPA(Federated Learning with critical Analysis)を提案する。
攻撃耐性凝集法は, 有害局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒であるのに対し, 類似したトップkおよびボトムk臨界パラメータを持つ。
論文 参考訳(メタデータ) (2023-08-18T05:37:55Z) - Membership-Doctor: Comprehensive Assessment of Membership Inference
Against Machine Learning Models [11.842337448801066]
本稿では,様々なメンバーシップ推論攻撃と防衛の大規模測定を行う。
脅威モデル(例えば、同一構造や、シャドーモデルとターゲットモデルとの同一分布)のいくつかの仮定は不要である。
また、実験室のデータセットではなく、インターネットから収集された実世界のデータに対する攻撃を最初に実施しました。
論文 参考訳(メタデータ) (2022-08-22T17:00:53Z) - Defending against the Label-flipping Attack in Federated Learning [5.769445676575767]
フェデレーテッド・ラーニング(FL)は、参加する仲間にデザインによる自律性とプライバシを提供する。
ラベルフリッピング(LF)攻撃(英: label-flipping, LF)は、攻撃者がラベルをめくってトレーニングデータに毒を盛る攻撃である。
本稿では、まず、ピアのローカル更新からこれらの勾配を動的に抽出する新しいディフェンスを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:02:54Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Improving Robustness to Model Inversion Attacks via Mutual Information
Regularization [12.079281416410227]
本稿では,モデル逆転攻撃に対する防御機構について検討する。
MIは、ターゲット機械学習モデルへのアクセスからトレーニングデータ配布に関する情報を推測することを目的とした、プライバシ攻撃の一種である。
我々はMI攻撃に対するMID(Multual Information Regularization based Defense)を提案する。
論文 参考訳(メタデータ) (2020-09-11T06:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。