論文の概要: Neural network fragile watermarking with no model performance
degradation
- arxiv url: http://arxiv.org/abs/2208.07585v1
- Date: Tue, 16 Aug 2022 07:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:38:03.124262
- Title: Neural network fragile watermarking with no model performance
degradation
- Title(参考訳): モデル性能劣化のないニューラルネットワーク脆弱な透かし
- Authors: Zhaoxia Yin, Heng Yin, and Xinpeng Zhang
- Abstract要約: モデル性能の劣化を伴わない新しいニューラルネットワーク脆弱な透かしを提案する。
実験の結果,提案手法はモデル性能劣化を伴わずに,悪質な微調整を効果的に検出できることが示唆された。
- 参考スコア(独自算出の注目度): 28.68910526223425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are vulnerable to malicious fine-tuning attacks such as
data poisoning and backdoor attacks. Therefore, in recent research, it is
proposed how to detect malicious fine-tuning of neural network models. However,
it usually negatively affects the performance of the protected model. Thus, we
propose a novel neural network fragile watermarking with no model performance
degradation. In the process of watermarking, we train a generative model with
the specific loss function and secret key to generate triggers that are
sensitive to the fine-tuning of the target classifier. In the process of
verifying, we adopt the watermarked classifier to get labels of each fragile
trigger. Then, malicious fine-tuning can be detected by comparing secret keys
and labels. Experiments on classic datasets and classifiers show that the
proposed method can effectively detect model malicious fine-tuning with no
model performance degradation.
- Abstract(参考訳): ディープニューラルネットワークは、データ中毒やバックドア攻撃などの悪意のある微調整攻撃に対して脆弱である。
そこで,近年の研究では,ニューラルネットワークモデルの悪意のある微調整を検出する方法が提案されている。
しかし、通常は保護されたモデルの性能に悪影響を及ぼす。
そこで本研究では,モデル性能劣化のないニューラルネットワーク脆弱な透かしを提案する。
透かしの過程で、特定の損失関数とシークレットキーを持つ生成モデルを訓練し、ターゲット分類器の微調整に敏感なトリガーを生成する。
検証の過程で、各脆弱トリガーのラベルを取得するために、透かし付き分類器を採用する。
そして、秘密鍵とラベルを比較して悪意のある微調整を検出する。
古典的データセットと分類器の実験により,提案手法はモデルの性能劣化を伴わずに,悪質な微調整を効果的に検出できることを示した。
関連論文リスト
- Augmented Neural Fine-Tuning for Efficient Backdoor Purification [16.74156528484354]
最近の研究では、様々なバックドア攻撃に対するディープニューラルネットワーク(DNN)の脆弱性が明らかにされている。
神経活動の最適再編成を目的としたニューラルマスクファインチューニング(NFT)を提案する。
NFTはトリガー合成プロセスを緩和し、逆探索モジュールの要求をなくす。
論文 参考訳(メタデータ) (2024-07-14T02:36:54Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Fragile Model Watermark for integrity protection: leveraging boundary volatility and sensitive sample-pairing [34.86809796164664]
Fragileモデルの透かしは、モデルが誤った判断を下す可能性のある予期せぬ改ざんを防止することを目的としている。
提案手法では,対のサンプル間のモデル境界を設定するとともに,ロジットの最大化を行う。
これにより、機密サンプルのモデルによる決定結果が可能な限り変化し、Top-1ラベルの移動方向に関わらず変更が容易になる。
論文 参考訳(メタデータ) (2024-04-11T09:01:52Z) - Disarming Steganography Attacks Inside Neural Network Models [4.750077838548593]
本稿では,AIモデル攻撃の解除と再構築に基づくゼロトラスト防止戦略を提案する。
本研究では,Qint8法とK-LRBP法に基づくモデル精度の低下を最小限に抑えながら,100%の防止率を示す。
論文 参考訳(メタデータ) (2023-09-06T15:18:35Z) - VPN: Verification of Poisoning in Neural Networks [11.221552724154988]
我々は、別のニューラルネットワークセキュリティ問題、すなわちデータ中毒について研究する。
この場合、アタッカーがトレーニングデータのサブセットにトリガーを挿入するので、テスト時にこのトリガーが入力され、トレーニングされたモデルがターゲットクラスに誤って分類される。
我々は、市販の検証ツールでチェックできるプロパティとして、データ中毒のチェックを定式化する方法を示す。
論文 参考訳(メタデータ) (2022-05-08T15:16:05Z) - Reversible Watermarking in Deep Convolutional Neural Networks for
Integrity Authentication [78.165255859254]
整合性認証のための可逆透かしアルゴリズムを提案する。
可逆透かしを埋め込むことが分類性能に及ぼす影響は0.5%未満である。
同時に、可逆的な透かしを適用することでモデルの完全性を検証することができる。
論文 参考訳(メタデータ) (2021-04-09T09:32:21Z) - TOP: Backdoor Detection in Neural Networks via Transferability of
Perturbation [1.52292571922932]
トレーニングデータやサンプルトリガにアクセスせずにトレーニングされたモデルのバックドアを検出することは、重要なオープン問題である。
本稿では,これらのモデルの興味深い性質を同定する: クリーンモデルよりも毒性モデルの方が画像から画像への逆摂動の伝達が容易である。
この機能を使用して、TrojAIベンチマークの有毒モデルと、追加モデルを検出します。
論文 参考訳(メタデータ) (2021-03-18T14:13:30Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z) - Model Watermarking for Image Processing Networks [120.918532981871]
深層モデルの知的財産権を保護する方法は、非常に重要であるが、真に研究されていない問題である。
画像処理モデルを保護するための最初のモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T18:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。