論文の概要: Deconstructing Classifiers: Towards A Data Reconstruction Attack Against
Text Classification Models
- arxiv url: http://arxiv.org/abs/2306.13789v1
- Date: Fri, 23 Jun 2023 21:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 19:07:20.379387
- Title: Deconstructing Classifiers: Towards A Data Reconstruction Attack Against
Text Classification Models
- Title(参考訳): デコンストラクタ分類器:テキスト分類モデルに対するデータ再構成攻撃に向けて
- Authors: Adel Elmahdy, Ahmed Salem
- Abstract要約: 我々はMix And Match攻撃と呼ばれる新たなターゲットデータ再構成攻撃を提案する。
この研究は、分類モデルにおけるデータ再構成攻撃に関連するプライバシーリスクを考慮することの重要性を強調している。
- 参考スコア(独自算出の注目度): 2.9735729003555345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing (NLP) models have become increasingly popular in
real-world applications, such as text classification. However, they are
vulnerable to privacy attacks, including data reconstruction attacks that aim
to extract the data used to train the model. Most previous studies on data
reconstruction attacks have focused on LLM, while classification models were
assumed to be more secure. In this work, we propose a new targeted data
reconstruction attack called the Mix And Match attack, which takes advantage of
the fact that most classification models are based on LLM. The Mix And Match
attack uses the base model of the target model to generate candidate tokens and
then prunes them using the classification head. We extensively demonstrate the
effectiveness of the attack using both random and organic canaries. This work
highlights the importance of considering the privacy risks associated with data
reconstruction attacks in classification models and offers insights into
possible leakages.
- Abstract(参考訳): 自然言語処理(NLP)モデルは、テキスト分類などの現実世界のアプリケーションで人気が高まっている。
しかし、モデルのトレーニングに使用されるデータを抽出することを目的としたデータ復元攻撃など、プライバシ攻撃に弱い。
データ再構成攻撃に関するこれまでの研究はLLMに重点を置いていたが、分類モデルはより安全であると推定された。
本研究では,多くの分類モデルがLLMに基づいているという事実を生かして,Mix And Match攻撃と呼ばれる新たなデータ再構成攻撃を提案する。
Mix And Match攻撃は、ターゲットモデルのベースモデルを使用して候補トークンを生成し、分類ヘッドを使用してそれらをプーンする。
ランダムカナリアと有機カナリアの両方を用いた攻撃の有効性を広範囲に示す。
本研究は,データレコンストラクション攻撃に伴うプライバシリスクを分類モデルで考慮することの重要性を強調し,漏洩の可能性に関する洞察を提供する。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Inference Attacks Against Face Recognition Model without Classification
Layers [2.775761045299829]
顔認識(FR)は日常生活のほぼすべての側面に適用されているが、情報漏洩のリスクが常に伴っている。
本研究では,分類層を持たない実用FRモデルの2段階からなる新しい推論攻撃を提唱する。
論文 参考訳(メタデータ) (2024-01-24T09:51:03Z) - Model Stealing Attack against Recommender System [85.1927483219819]
いくつかの敵攻撃は、レコメンデーターシステムに対するモデル盗難攻撃を成し遂げた。
本稿では、利用可能なターゲットデータとクエリの量を制限し、対象データとセットされたアイテムを共有する補助データを活用して、モデル盗難攻撃を促進する。
論文 参考訳(メタデータ) (2023-12-18T05:28:02Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Boosting Model Inversion Attacks with Adversarial Examples [26.904051413441316]
ブラックボックス設定において、より高い攻撃精度を達成できる学習ベースモデル反転攻撃のための新しい訓練パラダイムを提案する。
まず,攻撃モデルの学習過程を,意味的損失関数を追加して規則化する。
第2に、学習データに逆例を注入し、クラス関連部の多様性を高める。
論文 参考訳(メタデータ) (2023-06-24T13:40:58Z) - Membership Inference Attacks against Language Models via Neighbourhood
Comparison [45.086816556309266]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。
近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。
より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
論文 参考訳(メタデータ) (2023-05-29T07:06:03Z) - Local Model Reconstruction Attacks in Federated Learning and their Uses [9.14750410129878]
局所的なモデル再構築攻撃は、敵が他の古典的な攻撃をより効果的に引き起こすことを可能にする。
局所モデル再構成攻撃を利用したフェデレート学習におけるモデルベース属性推論攻撃を提案する。
我々の研究は、FLのプライバシーリスクを効果的に定量化するために、強力で説明可能な攻撃を設計するための新しい角度を提供する。
論文 参考訳(メタデータ) (2022-10-28T15:27:03Z) - Reconstructing Training Data with Informed Adversaries [30.138217209991826]
機械学習モデルへのアクセスを考えると、敵はモデルのトレーニングデータを再構築できるだろうか?
本研究は、この疑問を、学習データポイントの全てを知っている強力な情報提供者のレンズから研究する。
この厳密な脅威モデルにおいて、残りのデータポイントを再構築することは可能であることを示す。
論文 参考訳(メタデータ) (2022-01-13T09:19:25Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。