論文の概要: Neural Honeytrace: A Robust Plug-and-Play Watermarking Framework against Model Extraction Attacks
- arxiv url: http://arxiv.org/abs/2501.09328v2
- Date: Fri, 17 Jan 2025 06:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 10:40:29.403441
- Title: Neural Honeytrace: A Robust Plug-and-Play Watermarking Framework against Model Extraction Attacks
- Title(参考訳): Neural Honeytrace: モデル抽出攻撃に対するロバストなプラグイン・アンド・プレイ・ウォーターマーキングフレームワーク
- Authors: Yixiao Xu, Binxing Fang, Rui Wang, Yinghai Zhou, Shouling Ji, Yuan Liu, Mohan Li, Zhihong Tian,
- Abstract要約: モデル抽出攻撃に対する堅牢なプラグアンドプレイ透かしフレームワークであるNeural Honeytraceを提案する。
Neural Honeytraceは、最悪のケースであるt-Testベースの著作権主張に必要なサンプルを、トレーニングコストゼロで12,000ドルから200ドルに削減する。
- 参考スコア(独自算出の注目度): 39.06642008591216
- License:
- Abstract: Developing high-performance deep learning models is resource-intensive, leading model owners to utilize Machine Learning as a Service (MLaaS) platforms instead of publicly releasing their models. However, malicious users may exploit query interfaces to execute model extraction attacks, reconstructing the target model's functionality locally. While prior research has investigated triggerable watermarking techniques for asserting ownership, existing methods face significant challenges: (1) most approaches require additional training, resulting in high overhead and limited flexibility, and (2) they often fail to account for advanced attackers, leaving them vulnerable to adaptive attacks. In this paper, we propose Neural Honeytrace, a robust plug-and-play watermarking framework against model extraction attacks. We first formulate a watermark transmission model from an information-theoretic perspective, providing an interpretable account of the principles and limitations of existing triggerable watermarking. Guided by the model, we further introduce: (1) a similarity-based training-free watermarking method for plug-and-play and flexible watermarking, and (2) a distribution-based multi-step watermark information transmission strategy for robust watermarking. Comprehensive experiments on four datasets demonstrate that Neural Honeytrace outperforms previous methods in efficiency and resisting adaptive attacks. Neural Honeytrace reduces the average number of samples required for a worst-case t-Test-based copyright claim from $12,000$ to $200$ with zero training cost.
- Abstract(参考訳): 高性能なディープラーニングモデルの開発はリソース集約型であるため、モデルを公開する代わりに、モデル所有者はMLaaS(Machine Learning as a Service)プラットフォームを使用することができる。
しかし、悪意のあるユーザはクエリインターフェースを利用してモデル抽出攻撃を実行し、ターゲットモデルの機能をローカルに再構築することができる。
従来の研究では、オーナシップを主張するためのトリガ可能な透かし技術が研究されているが、既存の手法では、(1)多くのアプローチでは追加のトレーニングが必要で、高いオーバーヘッドと柔軟性が制限される。
本稿では,モデル抽出攻撃に対する堅牢なプラグアンドプレイ透かしフレームワークであるNeural Honeytraceを提案する。
まず、情報理論の観点から透かし伝達モデルを定式化し、既存のトリガ可能な透かしの原理と限界の解釈可能な説明を提供する。
さらに,(1)プラグアンドプレイおよびフレキシブルな透かしのための類似性に基づくトレーニングフリー透かし手法,(2)ロバスト透かしのための分散ベースの多段階透かし情報伝達戦略を紹介する。
4つのデータセットに関する総合的な実験により、Neural Honeytraceは従来の手法よりも効率が良く、適応攻撃に抵抗できることを示した。
Neural Honeytraceは、最悪のケースであるt-Testベースの著作権主張に必要なサンプルを、トレーニングコストゼロで12,000ドルから200ドルに削減する。
関連論文リスト
- Embedding Watermarks in Diffusion Process for Model Intellectual Property Protection [16.36712147596369]
拡散過程全体に透かしを埋め込むことにより,新しい透かしの枠組みを導入する。
詳細な理論的解析と実験的検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T18:27:10Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - MEA-Defender: A Robust Watermark against Model Extraction Attack [19.421741149364017]
本稿では,DNNモデルのIPをモデル抽出から保護するための新しい透かし,MEA-Defenderを提案する。
我々は,教師付き学習アルゴリズムと自己教師型学習アルゴリズムに基づいて訓練された5つのデータセットと6つのモデルを用いて,4つのモデル抽出攻撃に関する広範な実験を行った。
実験結果から,MEA-Defenderは様々なモデル抽出攻撃に対して高い堅牢性を示し,様々な透かし除去・検出手法が得られた。
論文 参考訳(メタデータ) (2024-01-26T23:12:53Z) - Probabilistically Robust Watermarking of Neural Networks [4.332441337407564]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。
私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文 参考訳(メタデータ) (2024-01-16T10:32:13Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Deep Model Intellectual Property Protection via Deep Watermarking [122.87871873450014]
ディープニューラルネットワークは深刻なip侵害リスクにさらされている。
ターゲットの深層モデルを考えると、攻撃者がその全情報を知っていれば、微調整で簡単に盗むことができる。
低レベルのコンピュータビジョンや画像処理タスクで訓練されたディープネットワークを保護するための新しいモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T18:58:21Z) - Removing Backdoor-Based Watermarks in Neural Networks with Limited Data [26.050649487499626]
ディープモデルの取引は、今日では非常に需要が高く、利益を上げている。
ナイーブ・トレーディング・スキームは 一般的に 著作権と信頼性の問題に関連する 潜在的なリスクを伴います
WILDと呼ばれる限られたデータを用いたバックドア型透かし除去フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-02T06:25:26Z) - Model Watermarking for Image Processing Networks [120.918532981871]
深層モデルの知的財産権を保護する方法は、非常に重要であるが、真に研究されていない問題である。
画像処理モデルを保護するための最初のモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T18:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。