論文の概要: Protecting Language Generation Models via Invisible Watermarking
- arxiv url: http://arxiv.org/abs/2302.03162v1
- Date: Mon, 6 Feb 2023 23:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:53:56.357821
- Title: Protecting Language Generation Models via Invisible Watermarking
- Title(参考訳): 可視的透かしによる言語生成モデル保護
- Authors: Xuandong Zhao, Yu-Xiang Wang, Lei Li
- Abstract要約: GINSEW(GINSEW)は,テキスト生成モデルが蒸留によって盗難されるのを防ぐ新しい方法である。
GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。
- 参考スコア(独自算出の注目度): 36.37616789197548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language generation models have been an increasingly powerful enabler for
many applications. Many such models offer free or affordable API access, which
makes them potentially vulnerable to model extraction attacks through
distillation. To protect intellectual property (IP) and ensure fair use of
these models, various techniques such as lexical watermarking and synonym
replacement have been proposed. However, these methods can be nullified by
obvious countermeasures such as "synonym randomization". To address this issue,
we propose GINSEW, a novel method to protect text generation models from being
stolen through distillation. The key idea of our method is to inject secret
signals into the probability vector of the decoding steps for each target
token. We can then detect the secret message by probing a suspect model to tell
if it is distilled from the protected one. Experimental results show that
GINSEW can effectively identify instances of IP infringement with minimal
impact on the generation quality of protected APIs. Our method demonstrates an
absolute improvement of 19 to 29 points on mean average precision (mAP) in
detecting suspects compared to previous methods against watermark removal
attacks.
- Abstract(参考訳): 言語生成モデルは、多くのアプリケーションでますます強力になっている。
このようなモデルの多くは、無料または安価なapiアクセスを提供しており、蒸留によるモデル抽出攻撃に対して潜在的に脆弱である。
知的財産権(IP)を保護し,これらのモデルを公平に活用するために,語彙的透かしや同義語置換など様々な手法が提案されている。
しかし、これらの手法は「synonym randomization」のような明らかな対策によって無効化することができる。
そこで本研究では, 蒸留によりテキスト生成モデルが盗まれないようにする新しい手法であるGINSEWを提案する。
提案手法の重要な考え方は,各ターゲットトークンの復号ステップの確率ベクトルに秘密信号を注入することである。
次に、保護されたメッセージから蒸留されているかどうかを疑似モデルで調べることで、シークレットメッセージを検出できる。
GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。
本手法は,従来のウォーターマーク除去攻撃法と比較して,平均精度 (map) で19点から29点の絶対的改善を示す。
関連論文リスト
- Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - Probabilistically Robust Watermarking of Neural Networks [4.64804216027185]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。
私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文 参考訳(メタデータ) (2024-01-16T10:32:13Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - A Watermark for Large Language Models [60.66466446340074]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Seeds Don't Lie: An Adaptive Watermarking Framework for Computer Vision
Models [44.80560808267494]
保護モデルに固有の振る舞いを活かして,保護モデルに透かしを施す適応フレームワークを提案する。
この透かしは、同じユニークな振る舞いを持つ抽出されたモデルを検出するために使用され、保護されたモデルのIPを無許可で使用することを示す。
この枠組みは,(1)未知のモデル抽出攻撃,(2)メソッドを実行する抽出モデル(例えば,重み付け)に対して頑健であることを示す。
論文 参考訳(メタデータ) (2022-11-24T14:48:40Z) - Distillation-Resistant Watermarking for Model Protection in NLP [36.37616789197548]
蒸留によるNLPモデル盗難を防止するため, 蒸留抵抗型透かし (DRW) を提案する。
DRWは、秘密鍵に対応する被害者の予測確率に透かしを注入することでモデルを保護する。
我々は,テキスト分類や音声タグ付け,名前付きエンティティ認識など,多様なNLPタスクセットでDRWを評価する。
論文 参考訳(メタデータ) (2022-10-07T04:14:35Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。