論文の概要: Elevating Defenses: Bridging Adversarial Training and Watermarking for
Model Resilience
- arxiv url: http://arxiv.org/abs/2312.14260v1
- Date: Thu, 21 Dec 2023 19:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:03:05.913643
- Title: Elevating Defenses: Bridging Adversarial Training and Watermarking for
Model Resilience
- Title(参考訳): 防衛の強化: モデルレジリエンスのための橋渡し敵訓練と透かし
- Authors: Janvi Thakkar, Giulio Zizzo, Sergio Maffeis
- Abstract要約: この研究は、敵の訓練と透かし技術を統合する新しい枠組みを導入し、回避攻撃を防ぎます。
我々は、MNISTとFashion-MNISTデータセットを用いて、様々なモデル盗難攻撃における提案手法の評価を行う。
- 参考スコア(独自算出の注目度): 2.8084422332394428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models are being used in an increasing number of critical
applications; thus, securing their integrity and ownership is critical. Recent
studies observed that adversarial training and watermarking have a conflicting
interaction. This work introduces a novel framework to integrate adversarial
training with watermarking techniques to fortify against evasion attacks and
provide confident model verification in case of intellectual property theft. We
use adversarial training together with adversarial watermarks to train a robust
watermarked model. The key intuition is to use a higher perturbation budget to
generate adversarial watermarks compared to the budget used for adversarial
training, thus avoiding conflict. We use the MNIST and Fashion-MNIST datasets
to evaluate our proposed technique on various model stealing attacks. The
results obtained consistently outperform the existing baseline in terms of
robustness performance and further prove the resilience of this defense against
pruning and fine-tuning removal attacks.
- Abstract(参考訳): 機械学習モデルは、多くの重要なアプリケーションで使用されているため、その完全性とオーナシップの確保が不可欠である。
最近の研究では、敵対的な訓練と透かしが相反する相互作用を持つことが観察されている。
本研究は,知的財産盗難の際,回避攻撃を防ぎ,確実なモデル検証を提供するため,透かし技術と敵対的トレーニングを統合する新しい枠組みを導入する。
防犯訓練と防犯用透かしを併用し,堅牢な透かしモデルの訓練を行った。
重要な直観は、対立を避けるために、敵の訓練に使用される予算よりも高い摂動予算を使用して敵のウォーターマークを生成することである。
我々は、MNISTとFashion-MNISTデータセットを用いて、様々なモデル盗難攻撃における提案手法の評価を行う。
その結果、ロバスト性性能において既存のベースラインを一貫して上回り、プルーニングと微調整除去攻撃に対するこの防御のレジリエンスをさらに証明した。
関連論文リスト
- FAIR-TAT: Improving Model Fairness Using Targeted Adversarial Training [16.10247754923311]
FAIR-TAT(Fair Targeted Adversarial Training)と呼ばれる新しいアプローチを導入する。
敵の対人訓練(標的外攻撃ではなく)に標的の対人攻撃を使用することで、敵の対人公正性に関してより有利なトレードオフが可能になることを示す。
論文 参考訳(メタデータ) (2024-10-30T15:58:03Z) - Purification-Agnostic Proxy Learning for Agentic Copyright Watermarking against Adversarial Evidence Forgery [8.695511322757262]
不正使用と不正なAIモデルの配布は、知的財産に深刻な脅威をもたらす。
モデル透かしはこの問題に対処するための重要なテクニックとして登場した。
本稿では,透かしモデルへのいくつかの貢献について述べる。
論文 参考訳(メタデータ) (2024-09-03T02:18:45Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Evaluating the Robustness of Trigger Set-Based Watermarks Embedded in
Deep Neural Networks [22.614495877481144]
最先端のトリガーセットベースの透かしアルゴリズムは、所有権を証明するという設計目標を達成することができない。
本稿では,対象モデルの基盤となる透かしアルゴリズムに対する敵の知識を活用する新しい適応攻撃を提案する。
論文 参考訳(メタデータ) (2021-06-18T14:23:55Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。