論文の概要: BlockDoor: Blocking Backdoor Based Watermarks in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2412.12194v1
- Date: Sat, 14 Dec 2024 06:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:18.424427
- Title: BlockDoor: Blocking Backdoor Based Watermarks in Deep Neural Networks
- Title(参考訳): BlockDoor:ディープニューラルネットワークでバックドアベースの透かしをブロックする
- Authors: Yi Hao Puah, Anh Tu Ngo, Nandish Chattopadhyay, Anupam Chattopadhyay,
- Abstract要約: BlockDoorは、トレーニングされたニューラルネットワークに透かしをバックドアとして埋め込む手段として、文学で使用される3種類のトリガーサンプルをすべてブロックするラッパーである。
Triggerの透かし検証の精度を最大98%まで下げることができる。
- 参考スコア(独自算出の注目度): 3.1858340237924776
- License:
- Abstract: Adoption of machine learning models across industries have turned Neural Networks (DNNs) into a prized Intellectual Property (IP), which needs to be protected from being stolen or being used without authorization. This topic gave rise to multiple watermarking schemes, through which, one can establish the ownership of a model. Watermarking using backdooring is the most well established method available in the literature, with specific works demonstrating the difficulty in removing the watermarks, embedded as backdoors within the weights of the network. However, in our work, we have identified a critical flaw in the design of the watermark verification with backdoors, pertaining to the behaviour of the samples of the Trigger Set, which acts as the secret key. In this paper, we present BlockDoor, which is a comprehensive package of techniques that is used as a wrapper to block all three different kinds of Trigger samples, which are used in the literature as means to embed watermarks within the trained neural networks as backdoors. The framework implemented through BlockDoor is able to detect potential Trigger samples, through separate functions for adversarial noise based triggers, out-of-distribution triggers and random label based triggers. Apart from a simple Denial-of-Service for a potential Trigger sample, our approach is also able to modify the Trigger samples for correct machine learning functionality. Extensive evaluation of BlockDoor establishes that it is able to significantly reduce the watermark validation accuracy of the Trigger set by up to $98\%$ without compromising on functionality, delivering up to a less than $1\%$ drop on the clean samples. BlockDoor has been tested on multiple datasets and neural architectures.
- Abstract(参考訳): 業界全体で機械学習モデルを採用することで、ニューラルネットワーク(DNN)は、知的財産権(IP)として注目されている。
このトピックは複数の透かしスキームを生み出し、それによってモデルのオーナシップを確立することができる。
バックドアを用いた透かしは文献でもっとも確立された方法であり、ネットワークの重みの中にバックドアとして埋め込まれた透かしを除去する難しさを示す具体的な研究である。
しかし,本研究では,秘密鍵として機能するトリガーセットのサンプルの挙動に関連する,バックドアによる透かし検証の設計に重大な欠陥が見つかった。
本稿では,3種類のトリガーサンプルをすべてブロックする包括的手法であるBlockDoorについて述べる。
BlockDoorを通じて実装されたフレームワークは、敵対的なノイズベースのトリガー、アウト・オブ・ディストリビューショントリガー、ランダムなラベルベースのトリガーの別々の機能を通じて、潜在的なTrigerサンプルを検出することができる。
潜在的な Trigger サンプルに対する単純な Denial-of-Service とは別に,当社のアプローチでは,Trigger サンプルを修正して,適切な機械学習機能を実現しています。
BlockDoorの大規模な評価では、機能に妥協することなく、Triggerの透かし検証の精度を最大9,8 %まで下げることができ、クリーンなサンプルを最大1 %以上下げることができる。
BlockDoorは、複数のデータセットとニューラルアーキテクチャでテストされている。
関連論文リスト
- Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Not Just Change the Labels, Learn the Features: Watermarking Deep Neural Networks with Multi-View Data [10.564634073196117]
DNN内に効率よく透かしを埋め込むため,Multi-view dATa をベースとした新しい透かし手法 MAT を提案する。
提案手法を様々なベンチマークで検証し,モデル抽出攻撃に対する防御効果を示す。
論文 参考訳(メタデータ) (2024-03-15T20:12:41Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - OVLA: Neural Network Ownership Verification using Latent Watermarks [7.661766773170363]
本稿では,潜伏した透かしに基づくニューラルネットワークのオーナシップ検証のための新しい手法を提案する。
提案手法は,バックドア検出,バックドア除去,サロゲートモデル攻撃に対する強力な防御効果を示す。
論文 参考訳(メタデータ) (2023-06-15T17:45:03Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - On Function-Coupled Watermarks for Deep Neural Networks [15.478746926391146]
本稿では,透かし除去攻撃に対して効果的に防御できる新しいDNN透かし法を提案する。
私たちの重要な洞察は、透かしとモデル機能の結合を強化することです。
その結果,アグレッシブ・ウォーターマーク除去攻撃による100%透かし認証の成功率を示した。
論文 参考訳(メタデータ) (2023-02-08T05:55:16Z) - Neural network fragile watermarking with no model performance
degradation [28.68910526223425]
モデル性能の劣化を伴わない新しいニューラルネットワーク脆弱な透かしを提案する。
実験の結果,提案手法はモデル性能劣化を伴わずに,悪質な微調整を効果的に検出できることが示唆された。
論文 参考訳(メタデータ) (2022-08-16T07:55:20Z) - Reversible Watermarking in Deep Convolutional Neural Networks for
Integrity Authentication [78.165255859254]
整合性認証のための可逆透かしアルゴリズムを提案する。
可逆透かしを埋め込むことが分類性能に及ぼす影響は0.5%未満である。
同時に、可逆的な透かしを適用することでモデルの完全性を検証することができる。
論文 参考訳(メタデータ) (2021-04-09T09:32:21Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。