論文の概要: Distillation-Resistant Watermarking for Model Protection in NLP
- arxiv url: http://arxiv.org/abs/2210.03312v1
- Date: Fri, 7 Oct 2022 04:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 12:59:03.025225
- Title: Distillation-Resistant Watermarking for Model Protection in NLP
- Title(参考訳): nlpにおけるモデル保護のための蒸留耐性透かし
- Authors: Xuandong Zhao and Lei Li and Yu-Xiang Wang
- Abstract要約: 蒸留によるNLPモデル盗難を防止するため, 蒸留抵抗型透かし (DRW) を提案する。
DRWは、秘密鍵に対応する被害者の予測確率に透かしを注入することでモデルを保護する。
我々は,テキスト分類や音声タグ付け,名前付きエンティティ認識など,多様なNLPタスクセットでDRWを評価する。
- 参考スコア(独自算出の注目度): 36.37616789197548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we protect the intellectual property of trained NLP models? Modern
NLP models are prone to stealing by querying and distilling from their publicly
exposed APIs. However, existing protection methods such as watermarking only
work for images but are not applicable to text. We propose
Distillation-Resistant Watermarking (DRW), a novel technique to protect NLP
models from being stolen via distillation. DRW protects a model by injecting
watermarks into the victim's prediction probability corresponding to a secret
key and is able to detect such a key by probing a suspect model. We prove that
a protected model still retains the original accuracy within a certain bound.
We evaluate DRW on a diverse set of NLP tasks including text classification,
part-of-speech tagging, and named entity recognition. Experiments show that DRW
protects the original model and detects stealing suspects at 100% mean average
precision for all four tasks while the prior method fails on two.
- Abstract(参考訳): 訓練されたNLPモデルの知的特性をどのように保護できるか?
現代のNLPモデルは、公開APIからのクエリと蒸留によって盗む傾向にある。
しかし、透かしなどの既存の保護法は画像のみに当てはまるが、テキストには適用できない。
蒸留によりNLPモデルが盗まれることを防ぐ新しい手法である蒸留抵抗式透かし(DRW)を提案する。
DRWは、秘密鍵に対応する被害者の予測確率に透かしを注入することでモデルを保護し、疑似モデルを探索することでそのようなキーを検出することができる。
保護されたモデルが元の精度を一定の範囲内に保持していることを証明する。
我々は,テキスト分類や音声タグ付け,名前付きエンティティ認識など,多様なNLPタスクセットでDRWを評価する。
実験の結果、DRWは元のモデルを保護し、4つのタスクの平均的な精度で被疑者を盗むのを検知し、2つのメソッドで失敗することがわかった。
関連論文リスト
- Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Protecting Language Generation Models via Invisible Watermarking [41.532711376512744]
GINSEW(GINSEW)は,テキスト生成モデルが蒸留によって盗難されるのを防ぐ新しい方法である。
GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-02-06T23:42:03Z) - ROSE: A RObust and SEcure DNN Watermarking [14.2215880080698]
本稿では,軽量で堅牢でセキュアなDNN透かしプロトコルを提案する。
トレーニングプロセス中に、暗号化の一方向関数と、タスク内のキーとラベルのペアの注入を利用する。
論文 参考訳(メタデータ) (2022-06-22T12:46:14Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Robust Black-box Watermarking for Deep NeuralNetwork using Inverse
Document Frequency [1.2502377311068757]
テキストドメイン用に設計されたディープニューラルネットワーク(DNN)モデルを透かし出すためのフレームワークを提案する。
提案した埋め込み手順はモデルのトレーニング時間内に行われ、透かし検証ステージが簡単になる。
実験の結果, 透かし付きモデルでは, 元のモデルと同じ精度を示した。
論文 参考訳(メタデータ) (2021-03-09T17:56:04Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z) - Entangled Watermarks as a Defense against Model Extraction [42.74645868767025]
Entangled Watermarking Embeddings (EWE)は、機械学習モデルをExtraction攻撃から保護するために使用される。
EWEは、タスク分布とウォーターマークをエンコードするデータからサンプリングされたデータを分類する機能を学ぶ。
MNIST、Fashion-MNIST、CIFAR-10、Speech Commandsの実験では、ディフェンダーは95%の信頼性でモデルの所有権を主張でき、100以上のクエリを盗まれている。
論文 参考訳(メタデータ) (2020-02-27T15:47:00Z) - Model Watermarking for Image Processing Networks [120.918532981871]
深層モデルの知的財産権を保護する方法は、非常に重要であるが、真に研究されていない問題である。
画像処理モデルを保護するための最初のモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T18:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。