論文の概要: Persistence of Backdoor-based Watermarks for Neural Networks: A Comprehensive Evaluation
- arxiv url: http://arxiv.org/abs/2501.02704v1
- Date: Mon, 06 Jan 2025 01:15:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:05:43.158831
- Title: Persistence of Backdoor-based Watermarks for Neural Networks: A Comprehensive Evaluation
- Title(参考訳): ニューラルネットワークのためのバックドアベース透かしの持続性:包括的評価
- Authors: Anh Tu Ngo, Chuan Song Heng, Nandish Chattopadhyay, Anupam Chattopadhyay,
- Abstract要約: バックドアベースの透かしは近年、プロプライエタリな権利を守るために活発に開発されている。
本稿では,ニューラルネットワークにおける最近のバックドアベース透かしの持続性について,微調整のシナリオで評価する。
トリガセットを露出することなく微調整後に透かしを復元する新しいデータ駆動型アイデアを提案・開発する。
- 参考スコア(独自算出の注目度): 3.1858340237924776
- License:
- Abstract: Deep Neural Networks (DNNs) have gained considerable traction in recent years due to the unparalleled results they gathered. However, the cost behind training such sophisticated models is resource intensive, resulting in many to consider DNNs to be intellectual property (IP) to model owners. In this era of cloud computing, high-performance DNNs are often deployed all over the internet so that people can access them publicly. As such, DNN watermarking schemes, especially backdoor-based watermarks, have been actively developed in recent years to preserve proprietary rights. Nonetheless, there lies much uncertainty on the robustness of existing backdoor watermark schemes, towards both adversarial attacks and unintended means such as fine-tuning neural network models. One reason for this is that no complete guarantee of robustness can be assured in the context of backdoor-based watermark. In this paper, we extensively evaluate the persistence of recent backdoor-based watermarks within neural networks in the scenario of fine-tuning, we propose/develop a novel data-driven idea to restore watermark after fine-tuning without exposing the trigger set. Our empirical results show that by solely introducing training data after fine-tuning, the watermark can be restored if model parameters do not shift dramatically during fine-tuning. Depending on the types of trigger samples used, trigger accuracy can be reinstated to up to 100%. Our study further explores how the restoration process works using loss landscape visualization, as well as the idea of introducing training data in fine-tuning stage to alleviate watermark vanishing.
- Abstract(参考訳): 近年、Deep Neural Networks(DNN)は、彼らが集めた非並列的な結果により、大きな注目を集めている。
しかし、そのような高度なモデルのトレーニングの背景にあるコストは資源集約的であり、結果として、DNNはモデル所有者にとって知的財産権(IP)であると考える者も多い。
クラウドコンピューティングの時代において、高性能なDNNはインターネット全体に展開され、人々がそれらを公開してアクセスできるようにする。
このように、DNNの透かし、特にバックドアベースの透かしは、近年、プロプライエタリな権利を維持するために活発に開発されている。
それでも、既存のバックドア透かしスキームの堅牢性には、敵の攻撃と、微調整ニューラルネットワークモデルのような意図しない手段の両方に対する不確実性がある。
この理由の1つは、バックドアベースの透かしの文脈で、堅牢性の完全な保証を保証できないことである。
本稿では、ニューラルネットワークにおける最近のバックドアベース透かしの持続性を微調整のシナリオにおいて広範囲に評価し、トリガーセットを露出することなく微調整後に透かしを復元する新しいデータ駆動型アイデアを提案し、開発する。
実験の結果,微調整後にのみトレーニングデータを導入することで,微調整中にモデルパラメータが劇的に変化しない場合,透かしを復元できることがわかった。
使用されるトリガーの種類によっては、トリガー精度は最大100%まで回復できる。
本研究は,損失景観の可視化による修復過程の解明と,透かしの消失を緩和するための微調整段階におけるトレーニングデータの導入について考察する。
関連論文リスト
- Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Rethinking White-Box Watermarks on Deep Learning Models under Neural
Structural Obfuscation [24.07604618918671]
ディープニューラルネットワーク(DNN)に対する著作権保護は、AI企業にとって緊急の必要性である。
ホワイトボックスの透かしは、最も知られている透かし除去攻撃に対して正確で、信頼性があり、安全であると考えられている。
主要なホワイトボックスの透かしは、一般的に、テクストダミーニューロンによる神経構造難読化に対して脆弱である。
論文 参考訳(メタデータ) (2023-03-17T02:21:41Z) - On Function-Coupled Watermarks for Deep Neural Networks [15.478746926391146]
本稿では,透かし除去攻撃に対して効果的に防御できる新しいDNN透かし法を提案する。
私たちの重要な洞察は、透かしとモデル機能の結合を強化することです。
その結果,アグレッシブ・ウォーターマーク除去攻撃による100%透かし認証の成功率を示した。
論文 参考訳(メタデータ) (2023-02-08T05:55:16Z) - Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset
Copyright Protection [69.59980270078067]
我々は,異常なモデル行動が決定論的でない,未目標のバックドア透かし方式を探索する。
また、提案した未ターゲットのバックドア透かしをデータセットのオーナシップ検証に利用する方法について論じる。
論文 参考訳(メタデータ) (2022-09-27T12:56:56Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Detect and remove watermark in deep neural networks via generative
adversarial networks [10.058070050660104]
本稿では,GAN(Generative Adversarial Network)を用いたディープニューラルネットワークにおける透かしの検出と除去手法を提案する。
第1フェーズでは、DNNモデルの透かしを検出・反転するために、GANとほとんどクリーンな画像を使用しません。
第2フェーズでは、逆バックドア画像に基づいて透かしDNNを微調整する。
論文 参考訳(メタデータ) (2021-06-15T12:45:22Z) - Reversible Watermarking in Deep Convolutional Neural Networks for
Integrity Authentication [78.165255859254]
整合性認証のための可逆透かしアルゴリズムを提案する。
可逆透かしを埋め込むことが分類性能に及ぼす影響は0.5%未満である。
同時に、可逆的な透かしを適用することでモデルの完全性を検証することができる。
論文 参考訳(メタデータ) (2021-04-09T09:32:21Z) - Don't Forget to Sign the Gradients! [60.98885980669777]
GradSignsはディープニューラルネットワーク(DNN)のための新しい透かしフレームワーク
深部ニューラルネットワーク(DNN)のための新しい透かしフレームワークであるGradSignsを紹介します。
論文 参考訳(メタデータ) (2021-03-05T14:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。