論文の概要: The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage
- arxiv url: http://arxiv.org/abs/2508.09603v1
- Date: Wed, 13 Aug 2025 08:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.814647
- Title: The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage
- Title(参考訳): 単純N-Gram被覆によるメンバーシップ推論の有効性について
- Authors: Skyler Hallinan, Jaehun Jung, Melanie Sclar, Ximing Lu, Abhilasha Ravichander, Sahana Ramnath, Yejin Choi, Sai Praneeth Karimireddy, Niloofar Mireshghallah, Xiang Ren,
- Abstract要約: 対象モデルからのテキスト出力のみに依存する会員推論攻撃であるN-Gram Coverage Attackを導入する。
我々はまず、N-Gram Coverage Attackが他のブラックボックスメソッドより優れている、様々な既存のベンチマークを実証する。
GPT-4oのような最近のモデルでは、メンバーシップ推論に対するロバスト性が向上していることがわかった。
- 参考スコア(独自算出の注目度): 71.8564105095189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Membership inference attacks serves as useful tool for fair use of language models, such as detecting potential copyright infringement and auditing data leakage. However, many current state-of-the-art attacks require access to models' hidden states or probability distribution, which prevents investigation into more widely-used, API-access only models like GPT-4. In this work, we introduce N-Gram Coverage Attack, a membership inference attack that relies solely on text outputs from the target model, enabling attacks on completely black-box models. We leverage the observation that models are more likely to memorize and subsequently generate text patterns that were commonly observed in their training data. Specifically, to make a prediction on a candidate member, N-Gram Coverage Attack first obtains multiple model generations conditioned on a prefix of the candidate. It then uses n-gram overlap metrics to compute and aggregate the similarities of these outputs with the ground truth suffix; high similarities indicate likely membership. We first demonstrate on a diverse set of existing benchmarks that N-Gram Coverage Attack outperforms other black-box methods while also impressively achieving comparable or even better performance to state-of-the-art white-box attacks - despite having access to only text outputs. Interestingly, we find that the success rate of our method scales with the attack compute budget - as we increase the number of sequences generated from the target model conditioned on the prefix, attack performance tends to improve. Having verified the accuracy of our method, we use it to investigate previously unstudied closed OpenAI models on multiple domains. We find that more recent models, such as GPT-4o, exhibit increased robustness to membership inference, suggesting an evolving trend toward improved privacy protections.
- Abstract(参考訳): メンバーシップ推論攻撃は、潜在的著作権侵害の検出やデータ漏洩の監査など、言語モデルの公正利用に有用なツールである。
しかし、現在の多くの最先端攻撃では、モデルが隠された状態や確率分布にアクセスする必要があるため、GPT-4のようなより広く使われているAPIアクセスのみのモデルに対する調査を妨げている。
本研究では,対象モデルからのテキスト出力のみに依存する会員推論攻撃であるN-Gram Coverage Attackを導入し,完全にブラックボックスモデルに対する攻撃を可能にする。
モデルは、トレーニングデータでよく見られるテキストパターンを記憶し、その後生成する可能性が高くなるという観察を活用している。
具体的には、N-Gramカバレッジアタックは、候補メンバに対して予測を行うために、まず、候補のプレフィックスに条件付された複数のモデル世代を取得する。
その後、n-gramオーバーラップメトリクスを使用して、これらの出力の類似度を基底真理接尾辞で計算し、集約する。
我々はまず、N-Gram Coverage Attackが他のブラックボックスメソッドよりも優れており、テキスト出力のみにアクセスするにもかかわらず、最先端のホワイトボックスアタックに匹敵する、あるいはさらに優れたパフォーマンスを実現している、さまざまな既存のベンチマークを実証した。
興味深いことに、我々の手法の成功率は攻撃計算予算とともにスケールし、プレフィックスに条件付けされたターゲットモデルから生成されるシーケンスの数が増えるにつれて、攻撃性能が向上する傾向にある。
提案手法の精度を検証した結果,複数の領域における未検討の閉OpenAIモデルについて検討した。
GPT-4oのような最近のモデルでは、メンバーシップ推論に対する堅牢性が向上し、プライバシー保護の改善に向けた傾向が示唆されている。
関連論文リスト
- No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models [111.58315434849047]
本稿では,アタック・イン・ザ・チェーン(Attack-in-the-Chain)という新しいランキングアタックフレームワークを紹介する。
大型言語モデル(LLMs)とニューラルランキングモデル(NRMs)の相互作用をチェーン・オブ・ソートに基づいて追跡する。
2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-25T04:03:09Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Practical Membership Inference Attacks Against Large-Scale Multi-Modal
Models: A Pilot Study [17.421886085918608]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングにデータポイントを使用したかどうかを推測することを目的としている。
これらの攻撃は、潜在的なプライバシー上の脆弱性を特定し、個人データの不正使用を検出するために使用できる。
本稿では,大規模マルチモーダルモデルに対する実用的なMIAの開発に向けて第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-09-29T19:38:40Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - Ensemble-based Blackbox Attacks on Dense Prediction [16.267479602370543]
慎重に設計されたアンサンブルは、多くの犠牲者モデルに対して効果的な攻撃を発生させることができることを示す。
特に,個々のモデルに対する重み付けの正規化が,攻撃の成功に重要な役割を担っていることを示す。
提案手法は同時に複数のブラックボックス検出とセグメンテーションモデルを騙すことができる単一摂動を生成することができる。
論文 参考訳(メタデータ) (2023-03-25T00:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。