論文の概要: Boundary-targeted Membership Inference Attacks on Safety Classifiers
- arxiv url: http://arxiv.org/abs/2605.22373v2
- Date: Fri, 22 May 2026 14:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.781552
- Title: Boundary-targeted Membership Inference Attacks on Safety Classifiers
- Title(参考訳): 安全分類器における境界目標メンバーシップ推論攻撃
- Authors: Anthony Hughes, Alexander Goldberg, Prince Jha, Adam Perer, Nikolaos Aletras, Niloofar Mireshghallah,
- Abstract要約: 安全分類器は、セルフハームとメンタルヘルスの議論を含むセンシティブなデータセットに基づいて訓練される。
低信頼例を識別する新たな境界目標選択戦略を導入する。
実験により、相手は会話の19%を安全分類器が5%の偽陽性率でユーザーの苦痛を示すようにフラグ付けして回復できることが示された。
これは最先端のMIAメソッドだけで攻撃するより3.5ドル高い。
- 参考スコア(独自算出の注目度): 70.20833439671131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety classifiers are essential safeguards within generative AI systems, filtering harmful content or identifying at-risk users when interacting with large language models. Despite their necessity, these models are trained on sensitive datasets including discussions of self-harm and mental health, raising important, yet poorly understood, privacy concerns. Membership inference attacks (MIAs) allow adversaries to infer membership of examples used to train models. In this work, we hypothesize that identifying the examples on which the classifier is least confident are informative for an adversary to infer membership. This reflects a localized failure of generalization, where the model relies on memorization to resolve ambiguity in the training set. To investigate this, we introduce a new boundary-targeted selection strategy that identifies low confidence examples that amplify the signal of an examples membership within a training set. Our experimental results show that an adversary can recover 19% of the conversations a safety classifier flagged as indicating user distress, at a 5% false-positive rate, on a classifier fine-tuned for detecting a user who may require emotional support. This is $3.5$ times more than attacking using state-of-the-art MIA methods alone. Finally, we characterize the boundary laying examples and show that content-based filtering is ineffective for protection, and existing noise strategies can effectively mitigate susceptibility of these examples.
- Abstract(参考訳): 安全分類器は、生成AIシステムにおいて必須の安全対策であり、有害なコンテンツをフィルタリングしたり、大きな言語モデルと対話する際にリスクのあるユーザーを特定する。
その必要性にもかかわらず、これらのモデルは、セルフハームとメンタルヘルスに関する議論を含むセンシティブなデータセットに基づいてトレーニングされ、重要で理解されていないプライバシー上の懸念を提起する。
メンバーシップ推論アタック(MIA)は、モデルのトレーニングに使用されるサンプルのメンバシップを敵が推測することを可能にする。
本研究では,分類者が最も自信の持たない事例を特定することは,相手が会員を推測する上で有益である,という仮説を立てる。
これは一般化の局所的失敗を反映しており、モデルがトレーニングセットのあいまいさを解決するために記憶に依存する。
そこで本研究では,トレーニングセット内のサンプルメンバシップのシグナルを増幅する低信頼例を識別する境界目標選択戦略を提案する。
実験の結果,情緒的支援を必要とするユーザを検出するために調整された分類器において,安全分類器が5%の偽陽性率でユーザの苦難を示すようにフラグ付けされた会話の19%を回復できることが示唆された。
これは最先端のMIAメソッドだけで攻撃するより3.5ドル高い。
最後に,境界敷設例を特徴付け,コンテンツに基づくフィルタリングが保護に有効でないことを示す。
関連論文リスト
- Neighborhood Blending: A Lightweight Inference-Time Defense Against Membership Inference Attacks [5.468130838517792]
近隣ブレンディング(Neighborhood Blending)と呼ばれる新しい予測時防衛機構を導入する。
提案手法は,敵と区別できない,一貫した信頼パターン,メンバと非メンバのレンダリングを実現する。
これはモデルに依存しないアプローチであり、実用的で軽量なソリューションを提供し、モデルユーティリティを犠牲にすることなくプライバシを強化する。
論文 参考訳(メタデータ) (2026-02-13T14:01:21Z) - Membership Inference Attacks on Tokenizers of Large Language Models [40.2492347972186]
本稿では,トークン化剤によるメンバシップリークに関する最初の研究について述べる。
データセットのメンバシップを推測する5つのアタック手法について検討する。
われわれの発見は、トークン化業者を、見過ごされているが重要なプライバシーの脅威として強調している。
論文 参考訳(メタデータ) (2025-10-07T09:05:40Z) - VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks [51.68795949691009]
差分プライバシとメンバシップ推論に基づくフレームワークであるVoxGuardを紹介した。
属性については, 匿名化後も, 性別やアクセントをほぼ完全精度で再現できることが示唆された。
以上の結果から,EERはリークを著しく過小評価し,低FPR評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-22T20:57:48Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Purifier: Defending Data Inference Attacks via Transforming Confidence
Scores [27.330482508047428]
そこで本研究では,PURIFIER(PURIFIER)を用いたメンバシップ推論攻撃に対する防御手法を提案する。
PURIFIERはメンバーシップ推論攻撃を高い効率と効率で防御する。
PURIFIERは、敵のモデル反転攻撃や属性推論攻撃の防御にも有効である。
論文 参考訳(メタデータ) (2022-12-01T16:09:50Z) - Effective Targeted Attacks for Adversarial Self-Supervised Learning [58.14233572578723]
ラベル情報を持たないモデルにおいて堅牢性を達成する手段として、教師なしの敵訓練(AT)が強調されている。
本稿では,敵のSSLフレームワークを効果的に生成するために,敵の攻撃を標的とした新たな正のマイニングを提案する。
提案手法は,非コントラスト型SSLフレームワークに適用した場合のロバストネスの大幅な向上と,コントラスト型SSLフレームワークによるロバストネスの向上を示す。
論文 参考訳(メタデータ) (2022-10-19T11:43:39Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Systematic Evaluation of Privacy Risks of Machine Learning Models [41.017707772150835]
メンバーシップ推論攻撃に対する事前の取り組みは、プライバシーリスクを著しく過小評価する可能性があることを示す。
まず、既存の非ニューラルネットワークベースの推論攻撃を改善することで、メンバーシップ推論のプライバシリスクをベンチマークする。
次に、プライバシリスクスコアと呼ばれる新しい指標を定式化し、導出することで、詳細なプライバシ分析のための新しいアプローチを導入する。
論文 参考訳(メタデータ) (2020-03-24T00:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。