Fugu-MT 論文翻訳(概要): Protecting Language Generation Models via Invisible Watermarking

論文の概要: Protecting Language Generation Models via Invisible Watermarking

arxiv url: http://arxiv.org/abs/2302.03162v1
Date: Mon, 6 Feb 2023 23:42:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-08 17:53:56.357821
Title: Protecting Language Generation Models via Invisible Watermarking
Title（参考訳）: 可視的透かしによる言語生成モデル保護
Authors: Xuandong Zhao, Yu-Xiang Wang, Lei Li
Abstract要約: GINSEW(GINSEW)は,テキスト生成モデルが蒸留によって盗難されるのを防ぐ新しい方法である。 GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。
参考スコア（独自算出の注目度）: 36.37616789197548
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language generation models have been an increasingly powerful enabler for many applications. Many such models offer free or affordable API access, which makes them potentially vulnerable to model extraction attacks through distillation. To protect intellectual property (IP) and ensure fair use of these models, various techniques such as lexical watermarking and synonym replacement have been proposed. However, these methods can be nullified by obvious countermeasures such as "synonym randomization". To address this issue, we propose GINSEW, a novel method to protect text generation models from being stolen through distillation. The key idea of our method is to inject secret signals into the probability vector of the decoding steps for each target token. We can then detect the secret message by probing a suspect model to tell if it is distilled from the protected one. Experimental results show that GINSEW can effectively identify instances of IP infringement with minimal impact on the generation quality of protected APIs. Our method demonstrates an absolute improvement of 19 to 29 points on mean average precision (mAP) in detecting suspects compared to previous methods against watermark removal attacks.
Abstract（参考訳）: 言語生成モデルは、多くのアプリケーションでますます強力になっている。このようなモデルの多くは、無料または安価なapiアクセスを提供しており、蒸留によるモデル抽出攻撃に対して潜在的に脆弱である。知的財産権(IP)を保護し,これらのモデルを公平に活用するために,語彙的透かしや同義語置換など様々な手法が提案されている。しかし、これらの手法は「synonym randomization」のような明らかな対策によって無効化することができる。そこで本研究では, 蒸留によりテキスト生成モデルが盗まれないようにする新しい手法であるGINSEWを提案する。提案手法の重要な考え方は,各ターゲットトークンの復号ステップの確率ベクトルに秘密信号を注入することである。次に、保護されたメッセージから蒸留されているかどうかを疑似モデルで調べることで、シークレットメッセージを検出できる。 GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。本手法は,従来のウォーターマーク除去攻撃法と比較して,平均精度 (map) で19点から29点の絶対的改善を示す。

関連論文リスト

Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。 OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文参考訳（メタデータ） (2025-02-20T18:45:01Z)
Robustness of Watermarking on Text-to-Image Diffusion Models [9.277492743469235]
本稿では,透かし埋め込みとテキスト・ツー・イメージ・ジェネレーション処理を統合することで生成する透かしの堅牢性について検討する。生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
論文参考訳（メタデータ） (2024-08-04T13:59:09Z)
QUEEN: Query Unlearning against Model Extraction [22.434812818540966]
モデル抽出攻撃は、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となる。本稿では,QUEEN(QUEry unlEarNing)を提案する。
論文参考訳（メタデータ） (2024-07-01T13:01:41Z)
Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution [22.933101948176606]
バックドアベースのモデル透かしは、リリースされたモデルにそのような特性を埋め込む、プライマリおよび最先端の方法である。特徴属性の説明に検証動作を埋め込む新しい透かしパラダイムである$i.e.$, Explanation as a Watermark (EaaW) を設計する。
論文参考訳（メタデータ） (2024-05-08T05:49:46Z)
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文参考訳（メタデータ） (2024-05-01T12:03:39Z)
Probabilistically Robust Watermarking of Neural Networks [4.332441337407564]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文参考訳（メタデータ） (2024-01-16T10:32:13Z)
Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文参考訳（メタデータ） (2023-09-09T12:46:08Z)
Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。安全で堅牢なバックドア型透かし注入法を提案する。我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文参考訳（メタデータ） (2023-09-04T19:58:35Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)
Distillation-Resistant Watermarking for Model Protection in NLP [36.37616789197548]
蒸留によるNLPモデル盗難を防止するため, 蒸留抵抗型透かし (DRW) を提案する。 DRWは、秘密鍵に対応する被害者の予測確率に透かしを注入することでモデルを保護する。我々は,テキスト分類や音声タグ付け,名前付きエンティティ認識など,多様なNLPタスクセットでDRWを評価する。
論文参考訳（メタデータ） (2022-10-07T04:14:35Z)
Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文参考訳（メタデータ） (2020-10-12T16:16:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。