論文の概要: Make Text Unlearnable: Exploiting Effective Patterns to Protect Personal
Data
- arxiv url: http://arxiv.org/abs/2307.00456v1
- Date: Sun, 2 Jul 2023 02:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:04:54.244514
- Title: Make Text Unlearnable: Exploiting Effective Patterns to Protect Personal
Data
- Title(参考訳): テキストを理解不能に - 効果的なパターンを活用した個人データ保護
- Authors: Xinzhe Li, Ming Liu, Shang Gao
- Abstract要約: 本稿では、深層学習モデルにおける不正な公開データの使用による倫理的懸念に対処する。
我々はHuangらによる二段階最適化手法を拡張し、勾配に基づく探索手法を用いて学習不能テキストを生成する。
両レベルの最適化によって生成される未知のテキストから単純なパターンを抽出し、未知のモデルに対してデータが未学習のままであることを示す。
- 参考スコア(独自算出の注目度): 9.380410177526425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the ethical concerns arising from the use of
unauthorized public data in deep learning models and proposes a novel solution.
Specifically, building on the work of Huang et al. (2021), we extend their
bi-level optimization approach to generate unlearnable text using a
gradient-based search technique. However, although effective, this approach
faces practical limitations, including the requirement of batches of instances
and model architecture knowledge that is not readily accessible to ordinary
users with limited access to their own data. Furthermore, even with
semantic-preserving constraints, unlearnable noise can alter the text's
semantics. To address these challenges, we extract simple patterns from
unlearnable text produced by bi-level optimization and demonstrate that the
data remains unlearnable for unknown models. Additionally, these patterns are
not instance- or dataset-specific, allowing users to readily apply them to text
classification and question-answering tasks, even if only a small proportion of
users implement them on their public content. We also open-source codes to
generate unlearnable text and assess unlearnable noise to benefit the public
and future studies.
- Abstract(参考訳): 本稿では、深層学習モデルにおける不正な公開データの使用による倫理的懸念に対処し、新しい解決策を提案する。
具体的には,Huang et al. (2021) の作業に基づいて,二段階最適化手法を拡張して,勾配に基づく探索手法を用いて学習不能テキストを生成する。
しかし、このアプローチは有効ではあるが、インスタンスのバッチの要求や、通常のユーザにはアクセスできない独自のデータへのアクセス制限を含む、実用的な制限に直面している。
さらに、セマンティクス保存の制約があっても、理解不能なノイズはテキストの意味を変化させることができる。
これらの課題に対処するために,二段階最適化によって生成した理解不能なテキストから単純なパターンを抽出し,未知のモデルではデータが理解不能であることを示す。
さらに、これらのパターンはインスタンス特化やデータセット特化ではなく、ユーザが公開コンテンツに実装するユーザのごく一部であっても、テキスト分類や質問応答タスクに簡単に適用することができる。
また、学習不可能なテキストを生成し、学習不能なノイズを評価し、公衆や将来の研究に役立てるために、オープンソースコードも作成します。
関連論文リスト
- Towards Operationalizing Right to Data Protection [8.61230665736263]
RegTextは、認識不能な相関関係を自然言語データセットに注入するフレームワークで、コンテンツに影響を与えることなく、効果的に学習不能にすることができる。
小型・大規模LMの厳密な実証分析によりRegTextの有用性を実証する。
RegTextは、生成したデータからGPT-4oやLlamaといった新しいモデルを学ぶことができます。
論文 参考訳(メタデータ) (2024-11-13T10:43:31Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Machine Unlearning in Large Language Models [0.7864304771129751]
本稿では,大規模言語モデル(LLM)を倫理,プライバシ,安全基準と整合させる手法を提案する。
本研究の目的は,LLMにおける学習情報を選択的に消去・修正することであり,有害な応答や著作権のあるコンテンツを対象としている。
論文 参考訳(メタデータ) (2024-05-24T02:12:51Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Privacy Leakage in Text Classification: A Data Extraction Approach [9.045332526072828]
テキスト分類領域における潜在的なプライバシー漏洩について,意図しないトレーニングデータの暗記の問題を調査して検討する。
モデルによって提供されるクラスラベルの可能性を利用して,部分テキストの欠落トークンを抽出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-09T16:14:26Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - Controlled Hallucinations: Learning to Generate Faithfully from Noisy
Data [1.0914300987810126]
本稿では,このような幻覚を生成テキストの制御可能な側面として扱う手法を提案する。
特にノイズの多いデータセットであるWikiBio corpusでは,自動評価と人的評価の両方において,この手法の有効性を実証している。
論文 参考訳(メタデータ) (2020-10-12T17:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。