論文の概要: DeepHider: A Multi-module and Invisibility Watermarking Scheme for
Language Model
- arxiv url: http://arxiv.org/abs/2208.04676v1
- Date: Tue, 9 Aug 2022 11:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:56:22.500069
- Title: DeepHider: A Multi-module and Invisibility Watermarking Scheme for
Language Model
- Title(参考訳): deephider: 言語モデルのためのマルチモジュールおよび可視性透かしスキーム
- Authors: Long Dai, Jiarong Mao, Xuefeng Fan, Xiaoyi Zhou
- Abstract要約: 本稿では,モデル分類モジュールを置換し,モデル全体の微調整を行う新たな脅威を提案する。
私たちは、盗難の所有権ステートメントを防ぐために、タンパー保護やトレーサビリティといったブロックチェーンの特性を使用します。
実験の結果,提案手法は100%の透かし検証精度でオーナシップの検証に成功した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid development of natural language processing (NLP) technology,
NLP models have shown great economic value in business. However, the owner's
models are vulnerable to the threat of pirated redistribution, which breaks the
symmetry relationship between model owners and consumers. Therefore, a model
protection mechanism is needed to keep the symmetry from being broken.
Currently, language model protection schemes based on black-box verification
perform poorly in terms of invisibility of trigger samples, which are easily
detected by humans or anomaly detectors and thus prevent verification. To solve
this problem, this paper proposes a trigger sample of the triggerless mode for
ownership verification. In addition, a thief may replace the classification
module for a watermarked model to satisfy its specific classification task and
remove the watermark present in the model. Therefore, this paper further
proposes a new threat of replacing the model classification module and
performing global fine-tuning of the model, and successfully verifies the model
ownership through a white-box approach. Meanwhile, we use the properties of
blockchain such as tamper-proof and traceability to prevent the ownership
statement of thieves. Experiments show that the proposed scheme successfully
verifies ownership with 100% watermark verification accuracy without affecting
the original performance of the model, and has strong robustness and low False
trigger rate.
- Abstract(参考訳): 自然言語処理(NLP)技術の急速な発展に伴い、NLPモデルはビジネスにおいて大きな経済的価値を示してきた。
しかし、所有者のモデルは海賊による再分配の脅威に弱いため、モデル所有者と消費者の対称性を損なう。
したがって、対称性が壊れないようにモデル保護機構が必要である。
現在、ブラックボックス検証に基づく言語モデル保護スキームは、人や異常検知器で容易に検出できるトリガーサンプルの可視性の観点からは不十分であり、検証の妨げとなる。
そこで本稿では,オーナシップ検証のためのトリガレスモードのトリガサンプルを提案する。
さらに、泥棒は、特定の分類タスクを満たし、モデルに存在する透かしを除去するために、透かし付きモデルの分類モジュールを置き換えることができる。
そこで本研究では,モデル分類モジュールを置換し,モデルのグローバルな微調整を行う新たな脅威を提案し,ホワイトボックスアプローチによるモデルオーナシップの検証に成功した。
一方、盗難の所有権ステートメントを防ぐために、改ざんやトレーサビリティといったブロックチェーンの特性を使用します。
実験により,提案手法はモデルの原性能に影響を与えず,100%透かし検証精度でオーナシップの検証に成功し,強い堅牢性と低い偽トリガー率を有することがわかった。
関連論文リスト
- Double-I Watermark: Protecting Model Copyright for LLM Fine-tuning [48.37597402174551]
二重I透かし」という新しい透かし手法を提案する。
提案手法はLLMの学習能力を活用することで,微調整中に特定の透かし情報をカスタマイズされたモデルに効果的に注入する。
提案手法を各種微調整法で評価し, その無害性, 頑健性, 独特性, 不受容性, 妥当性を理論的解析および実験的検証により検証した。
論文 参考訳(メタデータ) (2024-02-22T04:55:14Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Seeds Don't Lie: An Adaptive Watermarking Framework for Computer Vision
Models [44.80560808267494]
保護モデルに固有の振る舞いを活かして,保護モデルに透かしを施す適応フレームワークを提案する。
この透かしは、同じユニークな振る舞いを持つ抽出されたモデルを検出するために使用され、保護されたモデルのIPを無許可で使用することを示す。
この枠組みは,(1)未知のモデル抽出攻撃,(2)メソッドを実行する抽出モデル(例えば,重み付け)に対して頑健であることを示す。
論文 参考訳(メタデータ) (2022-11-24T14:48:40Z) - Watermarking for Out-of-distribution Detection [76.20630986010114]
Out-of-Distribution (OOD) 検出は、よく訓練された深層モデルから抽出された表現に基づいてOODデータを識別することを目的としている。
本稿では,透かしという一般的な手法を提案する。
我々は,元データの特徴に重畳される統一パターンを学習し,ウォーターマーキング後にモデルの検出能力が大きく向上する。
論文 参考訳(メタデータ) (2022-10-27T06:12:32Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - Neural network fragile watermarking with no model performance
degradation [28.68910526223425]
モデル性能の劣化を伴わない新しいニューラルネットワーク脆弱な透かしを提案する。
実験の結果,提案手法はモデル性能劣化を伴わずに,悪質な微調整を効果的に検出できることが示唆された。
論文 参考訳(メタデータ) (2022-08-16T07:55:20Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - DynaMarks: Defending Against Deep Learning Model Extraction Using
Dynamic Watermarking [3.282282297279473]
ディープラーニング(DL)モデルの機能は、モデル抽出によって盗むことができる。
本稿では,DLモデルの知的財産権(IP)を保護するため,DynaMarksと呼ばれる新しい透かし手法を提案する。
論文 参考訳(メタデータ) (2022-07-27T06:49:39Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - A Systematic Review on Model Watermarking for Neural Networks [1.2691047660244335]
この研究は、機械学習モデルのための異なるクラスの透かしスキームを特定し解析する分類法を提案する。
これは、構造化推論を可能にする統一的な脅威モデルを導入し、ウォーターマーキング手法の有効性の比較を行う。
望ましいセキュリティ要件とMLモデルの透かしに対する攻撃を体系化する。
論文 参考訳(メタデータ) (2020-09-25T12:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。