論文の概要: DeepHider: A Multi-module and Invisibility Watermarking Scheme for
Language Model
- arxiv url: http://arxiv.org/abs/2208.04676v1
- Date: Tue, 9 Aug 2022 11:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:56:22.500069
- Title: DeepHider: A Multi-module and Invisibility Watermarking Scheme for
Language Model
- Title(参考訳): deephider: 言語モデルのためのマルチモジュールおよび可視性透かしスキーム
- Authors: Long Dai, Jiarong Mao, Xuefeng Fan, Xiaoyi Zhou
- Abstract要約: 本稿では,モデル分類モジュールを置換し,モデル全体の微調整を行う新たな脅威を提案する。
私たちは、盗難の所有権ステートメントを防ぐために、タンパー保護やトレーサビリティといったブロックチェーンの特性を使用します。
実験の結果,提案手法は100%の透かし検証精度でオーナシップの検証に成功した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid development of natural language processing (NLP) technology,
NLP models have shown great economic value in business. However, the owner's
models are vulnerable to the threat of pirated redistribution, which breaks the
symmetry relationship between model owners and consumers. Therefore, a model
protection mechanism is needed to keep the symmetry from being broken.
Currently, language model protection schemes based on black-box verification
perform poorly in terms of invisibility of trigger samples, which are easily
detected by humans or anomaly detectors and thus prevent verification. To solve
this problem, this paper proposes a trigger sample of the triggerless mode for
ownership verification. In addition, a thief may replace the classification
module for a watermarked model to satisfy its specific classification task and
remove the watermark present in the model. Therefore, this paper further
proposes a new threat of replacing the model classification module and
performing global fine-tuning of the model, and successfully verifies the model
ownership through a white-box approach. Meanwhile, we use the properties of
blockchain such as tamper-proof and traceability to prevent the ownership
statement of thieves. Experiments show that the proposed scheme successfully
verifies ownership with 100% watermark verification accuracy without affecting
the original performance of the model, and has strong robustness and low False
trigger rate.
- Abstract(参考訳): 自然言語処理(NLP)技術の急速な発展に伴い、NLPモデルはビジネスにおいて大きな経済的価値を示してきた。
しかし、所有者のモデルは海賊による再分配の脅威に弱いため、モデル所有者と消費者の対称性を損なう。
したがって、対称性が壊れないようにモデル保護機構が必要である。
現在、ブラックボックス検証に基づく言語モデル保護スキームは、人や異常検知器で容易に検出できるトリガーサンプルの可視性の観点からは不十分であり、検証の妨げとなる。
そこで本稿では,オーナシップ検証のためのトリガレスモードのトリガサンプルを提案する。
さらに、泥棒は、特定の分類タスクを満たし、モデルに存在する透かしを除去するために、透かし付きモデルの分類モジュールを置き換えることができる。
そこで本研究では,モデル分類モジュールを置換し,モデルのグローバルな微調整を行う新たな脅威を提案し,ホワイトボックスアプローチによるモデルオーナシップの検証に成功した。
一方、盗難の所有権ステートメントを防ぐために、改ざんやトレーサビリティといったブロックチェーンの特性を使用します。
実験により,提案手法はモデルの原性能に影響を与えず,100%透かし検証精度でオーナシップの検証に成功し,強い堅牢性と低い偽トリガー率を有することがわかった。
関連論文リスト
- AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA [67.68750063537482]
拡散モデルは高品質な画像の生成において顕著な成功を収めた。
最近の研究は、SDモデルがポストホック法医学のための透かし付きコンテンツを出力できるようにすることを目的としている。
このシナリオにおける最初の実装としてtextttmethod を提案する。
論文 参考訳(メタデータ) (2024-05-18T01:25:47Z) - Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution [22.933101948176606]
バックドアベースのモデル透かしは、リリースされたモデルにそのような特性を埋め込む、プライマリおよび最先端の方法である。
特徴属性の説明に検証動作を埋め込む新しい透かしパラダイムである$i.e.$, Explanation as a Watermark (EaaW) を設計する。
論文 参考訳(メタデータ) (2024-05-08T05:49:46Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Seeds Don't Lie: An Adaptive Watermarking Framework for Computer Vision
Models [44.80560808267494]
保護モデルに固有の振る舞いを活かして,保護モデルに透かしを施す適応フレームワークを提案する。
この透かしは、同じユニークな振る舞いを持つ抽出されたモデルを検出するために使用され、保護されたモデルのIPを無許可で使用することを示す。
この枠組みは,(1)未知のモデル抽出攻撃,(2)メソッドを実行する抽出モデル(例えば,重み付け)に対して頑健であることを示す。
論文 参考訳(メタデータ) (2022-11-24T14:48:40Z) - Watermarking for Out-of-distribution Detection [76.20630986010114]
Out-of-Distribution (OOD) 検出は、よく訓練された深層モデルから抽出された表現に基づいてOODデータを識別することを目的としている。
本稿では,透かしという一般的な手法を提案する。
我々は,元データの特徴に重畳される統一パターンを学習し,ウォーターマーキング後にモデルの検出能力が大きく向上する。
論文 参考訳(メタデータ) (2022-10-27T06:12:32Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - Neural network fragile watermarking with no model performance
degradation [28.68910526223425]
モデル性能の劣化を伴わない新しいニューラルネットワーク脆弱な透かしを提案する。
実験の結果,提案手法はモデル性能劣化を伴わずに,悪質な微調整を効果的に検出できることが示唆された。
論文 参考訳(メタデータ) (2022-08-16T07:55:20Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - A Systematic Review on Model Watermarking for Neural Networks [1.2691047660244335]
この研究は、機械学習モデルのための異なるクラスの透かしスキームを特定し解析する分類法を提案する。
これは、構造化推論を可能にする統一的な脅威モデルを導入し、ウォーターマーキング手法の有効性の比較を行う。
望ましいセキュリティ要件とMLモデルの透かしに対する攻撃を体系化する。
論文 参考訳(メタデータ) (2020-09-25T12:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。