論文の概要: On the Weaknesses of Backdoor-based Model Watermarking: An Information-theoretic Perspective
- arxiv url: http://arxiv.org/abs/2409.06130v1
- Date: Tue, 10 Sep 2024 00:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:30:38.973044
- Title: On the Weaknesses of Backdoor-based Model Watermarking: An Information-theoretic Perspective
- Title(参考訳): バックドア型モデル透かしの弱さについて:情報理論の視点から
- Authors: Aoting Hu, Yanzhi Chen, Renjie Xie, Adrian Weller,
- Abstract要約: 機械学習モデルの知的財産権の保護は、AIセキュリティの急激な懸念として浮上している。
モデルウォーターマーキングは、機械学習モデルのオーナシップを保護するための強力なテクニックである。
本稿では,既存の手法の限界を克服するため,新しいウォーターマーク方式であるIn-distriion Watermark Embedding (IWE)を提案する。
- 参考スコア(独自算出の注目度): 39.676548104635096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safeguarding the intellectual property of machine learning models has emerged as a pressing concern in AI security. Model watermarking is a powerful technique for protecting ownership of machine learning models, yet its reliability has been recently challenged by recent watermark removal attacks. In this work, we investigate why existing watermark embedding techniques particularly those based on backdooring are vulnerable. Through an information-theoretic analysis, we show that the resilience of watermarking against erasure attacks hinges on the choice of trigger-set samples, where current uses of out-distribution trigger-set are inherently vulnerable to white-box adversaries. Based on this discovery, we propose a novel model watermarking scheme, In-distribution Watermark Embedding (IWE), to overcome the limitations of existing method. To further minimise the gap to clean models, we analyze the role of logits as watermark information carriers and propose a new approach to better conceal watermark information within the logits. Experiments on real-world datasets including CIFAR-100 and Caltech-101 demonstrate that our method robustly defends against various adversaries with negligible accuracy loss (< 0.1%).
- Abstract(参考訳): 機械学習モデルの知的財産権の保護は、AIセキュリティの急激な懸念として浮上している。
モデル透かしは機械学習モデルのオーナシップを保護するための強力なテクニックだが、最近の透かし除去攻撃によってその信頼性が問題視されている。
本研究では,既存の透かし埋め込み技術,特にバックドア技術が脆弱である理由について考察する。
情報理論解析により,消毒攻撃に対する透かしのレジリエンスは,現在の消毒トリガーセットの使用が本質的にはホワイトボックスの敵に対して脆弱であるトリガーセットの選択に左右されることを示した。
この発見に基づいて,既存の手法の限界を克服するため,新しいウォーターマーク方式であるIn-distriion Watermark Embedding (IWE)を提案する。
モデルクリーニングにおけるギャップを最小化するため,ロジットを透かし情報担体としての役割を分析し,ロジット内の透かし情報を隠蔽する新しい手法を提案する。
CIFAR-100とCaltech-101を含む実世界のデータセットの実験では、我々の手法は無視できる精度の損失(0.1%)で様々な敵に対して強固に防御することを示した。
関連論文リスト
- Embedding Watermarks in Diffusion Process for Model Intellectual Property Protection [16.36712147596369]
拡散過程全体に透かしを埋め込むことにより,新しい透かしの枠組みを導入する。
詳細な理論的解析と実験的検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T18:27:10Z) - Watermarking Recommender Systems [52.207721219147814]
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-Distribution Watermarking (AOW)を紹介する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
論文 参考訳(メタデータ) (2024-07-17T06:51:24Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - Wide Flat Minimum Watermarking for Robust Ownership Verification of GANs [23.639074918667625]
ホワイトボックス攻撃に対するロバスト性を向上したGANのための新しいマルチビット・ボックスフリー透かし手法を提案する。
透かしは、GANトレーニング中に余分な透かし損失項を追加することで埋め込む。
その結果,透かしの存在が画像の品質に与える影響は無視できることがわかった。
論文 参考訳(メタデータ) (2023-10-25T18:38:10Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。