論文の概要: An Information Theoretic Approach to Operationalize Right to Data Protection
- arxiv url: http://arxiv.org/abs/2411.08506v1
- Date: Wed, 13 Nov 2024 10:43:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:12:07.144290
- Title: An Information Theoretic Approach to Operationalize Right to Data Protection
- Title(参考訳): データ保護に対する情報理論的アプローチ
- Authors: Abhinav Java, Simra Shahid, Chirag Agarwal,
- Abstract要約: RegTextは、認識不能な相関関係を自然言語データセットに注入するフレームワークで、コンテンツに影響を与えることなく、効果的に学習不能にすることができる。
小型・大規模LMの厳密な実証分析によりRegTextの有用性を実証する。
RegTextは、生成したデータからGPT-4oやLlamaといった新しいモデルを学ぶことができます。
- 参考スコア(独自算出の注目度): 8.61230665736263
- License:
- Abstract: The widespread practice of indiscriminate data scraping to fine-tune language models (LMs) raises significant legal and ethical concerns, particularly regarding compliance with data protection laws such as the General Data Protection Regulation (GDPR). This practice often results in the unauthorized use of personal information, prompting growing debate within the academic and regulatory communities. Recent works have introduced the concept of generating unlearnable datasets (by adding imperceptible noise to the clean data), such that the underlying model achieves lower loss during training but fails to generalize to the unseen test setting. Though somewhat effective, these approaches are predominantly designed for images and are limited by several practical constraints like requiring knowledge of the target model. To this end, we introduce RegText, a framework that injects imperceptible spurious correlations into natural language datasets, effectively rendering them unlearnable without affecting semantic content. We demonstrate RegText's utility through rigorous empirical analysis of small and large LMs. Notably, RegText can restrict newer models like GPT-4o and Llama from learning on our generated data, resulting in a drop in their test accuracy compared to their zero-shot performance and paving the way for generating unlearnable text to protect public data.
- Abstract(参考訳): 特にGDPR(General Data Protection Regulation)のようなデータ保護法に準拠することに関して、微調整言語モデル(LM)に対する非差別的なデータスクレイピング(非差別的データスクレイピング)が大きな法的・倫理的懸念を提起している。
この慣行は、しばしば個人情報の不正使用を招き、学術・規制コミュニティ内での議論が激化する。
最近の研究は、学習不能なデータセットを生成するという概念を導入し(クリーンデータに知覚不可能なノイズを加えることによって)、基礎となるモデルはトレーニング中に損失を小さくするが、目に見えないテスト設定に一般化することができない。
幾分効果はあるが、これらのアプローチは主に画像用に設計されており、ターゲットモデルの知識を必要とするようないくつかの実践的な制約によって制限されている。
この目的のために、自然言語データセットに知覚不可能なスプリアス相関を注入するフレームワークであるRegTextを導入し、セマンティックコンテンツに影響を与えることなく効果的にそれらを学習不能にする。
小型・大規模LMの厳密な実証分析によりRegTextの有用性を実証する。
特に、RegTextは、GPT-4oやLlamaといった新しいモデルを、生成したデータから学習することを制限することができる。
関連論文リスト
- EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文 参考訳(メタデータ) (2024-06-20T02:02:44Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Make Text Unlearnable: Exploiting Effective Patterns to Protect Personal
Data [9.380410177526425]
本稿では、深層学習モデルにおける不正な公開データの使用による倫理的懸念に対処する。
我々はHuangらによる二段階最適化手法を拡張し、勾配に基づく探索手法を用いて学習不能テキストを生成する。
両レベルの最適化によって生成される未知のテキストから単純なパターンを抽出し、未知のモデルに対してデータが未学習のままであることを示す。
論文 参考訳(メタデータ) (2023-07-02T02:34:57Z) - Watermarking Text Data on Large Language Models for Dataset Copyright [25.201753860008004]
ディープモデルは、下流のNLPタスクに有用な普遍言語表現を学習することができる。
ディープラーニングはさまざまなプライバシ攻撃にも脆弱だが、トレーニングデータセットには多くの機密情報が存在している。
バックドアベースのメンバシップ推論手法であるTextMarkerを用いて,新しい透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:28:00Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。