論文の概要: ExpShield: Safeguarding Web Text from Unauthorized Crawling and Language Modeling Exploitation
- arxiv url: http://arxiv.org/abs/2412.21123v2
- Date: Wed, 07 May 2025 03:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.743667
- Title: ExpShield: Safeguarding Web Text from Unauthorized Crawling and Language Modeling Exploitation
- Title(参考訳): ExpShield: 不正なクローリングと言語モデリングの爆発からWebテキストを守る
- Authors: Ruixuan Liu, Toan Tran, Tianhao Wang, Hongsheng Hu, Shuo Wang, Li Xiong,
- Abstract要約: そこで本研究では,非知覚的テキスト摂動によるサンプル固有の記憶を緩和する,能動的自己防衛機構であるExpShiledを提案する。
当社のアプローチでは、オリジナルの可読性を維持しながら外部とのコラボレーションは必要ありません。
プライバシーのバックドアがあっても、MIA(Community Inference Attack)のAUCは0.95から0.55に低下し、インスタンスエクスプロイトは0に近づいた。
- 参考スコア(独自算出の注目度): 17.71790411163849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) increasingly depend on web-scraped datasets, concerns arise over their potential to generate verbatim training content with copyrighted or private information. However, current protections against web crawling or sample-specific memorization are inherently limited, as they require compliance from crawlers (e.g., respecting robots.txt) or model trainers (e.g., applying differential privacy). To empower data owners with direct control, we propose ExpShiled, a proactive self-defense mechanism that mitigates sample-specific memorization via imperceptible text perturbations. This approach requires no external collaboration while maintaining original readability. To evaluate individual-level defense efficacy, we first propose the metric of instance exploitation: a zero value indicates perfect defense, achieved when a protected text's log-perplexity ranking aligns with its counterfactual untrained ranking. We then reveal and validate the memorization trigger hypothesis, demonstrating that a model's memorization of a specific text sample stems primarily from its outlier tokens. Leveraging this insight, we design targeted perturbations that (1) prioritize inherent trigger tokens and (2) introduce artificial trigger tokens as pitfalls to disrupt memorization on the protected sample. Experiments validate our defense across model scales, languages, vision-to-language tasks, and fine-tuning methods. Even with privacy backdoors, the Membership Inference Attack (MIA) AUC drops from 0.95 to 0.55, and instance exploitation approaches zero. This suggests that compared to the ideal no-misuse scenario, the risk of exposing a text instance remains nearly unchanged despite its inclusion in training data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますますWebスクラッドなデータセットに依存しているため、著作権付きまたはプライベートな情報で冗長なトレーニングコンテンツを生成する可能性に懸念が生じる。
しかし、ウェブクローリングやサンプル固有の暗記に対する現在の保護は本質的に制限されており、クローラー(例えば、ロボットを尊重する.txt)やモデルトレーナー(例えば、差分プライバシーを適用する)からのコンプライアンスを必要とする。
直接制御によるデータオーナの強化を目的としたExpShiledは,非知覚的テキスト摂動によるサンプル固有の記憶を緩和する能動的自己防衛機構である。
このアプローチでは、オリジナルの可読性を維持しながら外部とのコラボレーションは必要ありません。
個人レベルの防衛効果を評価するために、まず、保護されたテキストの対数パープレクティリティランキングが非実効的ランキングと整合した場合に達成される、完全な防御を示すゼロ値という、インスタンス利用の指標を提案する。
次に、特定のテキストサンプルのメモリ化が、主に外れ値トークンから生じることを実証して、メモリ化トリガ仮説を明らかにし、検証する。
この知見を生かして,(1)固有のトリガートークンを優先し,(2)人工トリガートークンを落とし穴として導入し,保護されたサンプルの記憶を阻害するターゲット摂動を設計する。
実験は、モデルスケール、言語、視覚から言語へのタスク、微調整メソッドをまたいだ防御を検証する。
プライバシーのバックドアがあっても、MIA(Community Inference Attack)のAUCは0.95から0.55に低下し、インスタンスエクスプロイトは0に近づいた。
これは、理想的な非誤用シナリオと比較して、トレーニングデータに含まれているにもかかわらず、テキストインスタンスを公開するリスクはほとんど変わらないことを示唆している。
関連論文リスト
- CRFU: Compressive Representation Forgetting Against Privacy Leakage on Machine Unlearning [14.061404670832097]
効果的なアンラーニング方法は、訓練されたモデルから指定されたデータの情報を除去し、アンラーニングの前後で同じ入力に対して異なる出力を出力する。
本研究では,非学習者のプライバシー漏洩を防ぐためにCRFU(Compressive Representation Forgetting Unlearning scheme)を導入する。
論文 参考訳(メタデータ) (2025-02-27T05:59:02Z) - Game-Theoretic Machine Unlearning: Mitigating Extra Privacy Leakage [12.737028324709609]
最近の法律では、要求されたデータとその影響を訓練されたモデルから取り除くことが義務付けられている。
本研究では,非学習性能とプライバシ保護の競合関係をシミュレートするゲーム理論マシンアンラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-06T13:47:04Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.685921135304385]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。
本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。
プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文 参考訳(メタデータ) (2024-07-14T03:05:53Z) - Ungeneralizable Examples [70.76487163068109]
学習不能なデータを作成するための現在のアプローチには、小さくて特殊なノイズが組み込まれている。
学習不能データの概念を条件付きデータ学習に拡張し、textbfUntextbf Generalizable textbfExamples (UGEs)を導入する。
UGEは認証されたユーザに対して学習性を示しながら、潜在的なハッカーに対する非学習性を維持している。
論文 参考訳(メタデータ) (2024-04-22T09:29:14Z) - Robust Federated Learning Mitigates Client-side Training Data Distribution Inference Attacks [48.70867241987739]
InferGuardは、クライアント側のトレーニングデータ分散推論攻撃に対する防御を目的とした、新しいビザンチン・ロバスト集約ルールである。
実験の結果,我々の防衛機構はクライアント側のトレーニングデータ分布推定攻撃に対する防御に極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T17:41:35Z) - Diffence: Fencing Membership Privacy With Diffusion Models [14.633898825111828]
ディープラーニングモデルは、メンバーシップ推論攻撃(MIA)に対して脆弱である
生成モデルを活用することでMIAに対する新たな防御フレームワークを導入する。
当社の防衛はDIFFENCEと呼ばれ、事前推論を行います。
論文 参考訳(メタデータ) (2023-12-07T20:45:09Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - The Devil's Advocate: Shattering the Illusion of Unexploitable Data
using Diffusion Models [14.018862290487617]
データ保護の摂動に対抗して、慎重に設計された分極処理が可能であることを示す。
AVATARと呼ばれる我々のアプローチは、最近のアベイラビリティーアタックに対して最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-03-15T10:20:49Z) - Privacy-Preserving Federated Learning on Partitioned Attributes [6.661716208346423]
フェデレーション学習は、ローカルデータやモデルを公開することなく、協調的なトレーニングを促進する。
ローカルモデルをチューニングし、プライバシー保護された中間表現をリリースする逆学習ベースの手順を紹介します。
精度低下を緩和するために,前方後方分割アルゴリズムに基づく防御法を提案する。
論文 参考訳(メタデータ) (2021-04-29T14:49:14Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。