論文の概要: Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion
- arxiv url: http://arxiv.org/abs/2404.13518v1
- Date: Sun, 21 Apr 2024 03:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:40:56.610744
- Title: Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion
- Title(参考訳): 信頼性のあるモデル透かし:侵入を妥協せずに盗難に対処する
- Authors: Hongyu Zhu, Sichu Liang, Wentao Hu, Fangqi Li, Ju Jia, Shilin Wang,
- Abstract要約: 回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
- 参考スコア(独自算出の注目度): 15.086451828825398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of Machine Learning as a Service (MLaaS) platforms,safeguarding the intellectual property of deep learning models is becoming paramount. Among various protective measures, trigger set watermarking has emerged as a flexible and effective strategy for preventing unauthorized model distribution. However, this paper identifies an inherent flaw in the current paradigm of trigger set watermarking: evasion adversaries can readily exploit the shortcuts created by models memorizing watermark samples that deviate from the main task distribution, significantly impairing their generalization in adversarial settings. To counteract this, we leverage diffusion models to synthesize unrestricted adversarial examples as trigger sets. By learning the model to accurately recognize them, unique watermark behaviors are promoted through knowledge injection rather than error memorization, thus avoiding exploitable shortcuts. Furthermore, we uncover that the resistance of current trigger set watermarking against removal attacks primarily relies on significantly damaging the decision boundaries during embedding, intertwining unremovability with adverse impacts. By optimizing the knowledge transfer properties of protected models, our approach conveys watermark behaviors to extraction surrogates without aggressively decision boundary perturbation. Experimental results on CIFAR-10/100 and Imagenette datasets demonstrate the effectiveness of our method, showing not only improved robustness against evasion adversaries but also superior resistance to watermark removal attacks compared to state-of-the-art solutions.
- Abstract(参考訳): マシンラーニング・アズ・ア・サービス(MLaaS)プラットフォームが台頭するにつれ、ディープラーニングモデルの知的特性の保護が最重要視されている。
様々な保護策の中で、無許可のモデル分布を防止するための柔軟で効果的な戦略として、トリガーセットの透かしが出現している。
しかし,本論文では,現在のトリガーセットウォーターマーキングのパラダイムに固有の欠陥を指摘した。 回避敵は,メインタスク分布から逸脱したウォーターマークサンプルを記憶するモデルにより生成したショートカットを容易に利用でき,敵の設定における一般化を著しく損なう。
これに対応するために、拡散モデルを活用して、制約のない逆例をトリガーセットとして合成する。
モデルを学習して正確な認識を行うことにより、ユニークな透かしの振る舞いは、エラー記憶よりも知識注入によって促進され、悪用可能なショートカットを避けることができる。
さらに, 除去攻撃に対する現在のトリガーセット・ウォーターマーキングの抵抗は, 埋没時の決定境界を著しく損なうこと, 有害な影響を伴って非除去性を損なうことに大きく依存していることが判明した。
保護されたモデルの知識伝達特性を最適化することにより,積極的な決定境界摂動を伴わずにサロゲートの抽出に透かしの挙動を伝達する。
CIFAR-10/100 と Imagenette のデータセットを用いた実験結果から,本手法の有効性が示された。
関連論文リスト
- Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution [22.933101948176606]
バックドアベースのモデル透かしは、リリースされたモデルにそのような特性を埋め込む、プライマリおよび最先端の方法である。
特徴属性の説明に検証動作を埋め込む新しい透かしパラダイムである$i.e.$, Explanation as a Watermark (EaaW) を設計する。
論文 参考訳(メタデータ) (2024-05-08T05:49:46Z) - Adaptive and robust watermark against model extraction attack [47.744465701960806]
本稿では,追加モジュールを訓練せずにモデル抽出攻撃に抵抗する,プラグアンドプレイIP保護透かし手法であるPromptShieldを提案する。
提案手法では,モデルの内部ロジットへのアクセスを必要とせず,プロンプト誘導キューを用いたモデル分布の変更を最小限に抑える。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Fragile Model Watermark for integrity protection: leveraging boundary volatility and sensitive sample-pairing [34.86809796164664]
Fragileモデルの透かしは、モデルが誤った判断を下す可能性のある予期せぬ改ざんを防止することを目的としている。
提案手法では,対のサンプル間のモデル境界を設定するとともに,ロジットの最大化を行う。
これにより、機密サンプルのモデルによる決定結果が可能な限り変化し、Top-1ラベルの移動方向に関わらず変更が容易になる。
論文 参考訳(メタデータ) (2024-04-11T09:01:52Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。