論文の概要: Class-feature Watermark: A Resilient Black-box Watermark Against Model Extraction Attacks
- arxiv url: http://arxiv.org/abs/2511.07947v2
- Date: Sun, 16 Nov 2025 08:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.174957
- Title: Class-feature Watermark: A Resilient Black-box Watermark Against Model Extraction Attacks
- Title(参考訳): クラスの透かし:モデル抽出攻撃に対する回復力のあるブラックボックス透かし
- Authors: Yaxin Xiao, Qingqing Ye, Zi Liang, Haoyang Li, RongHua Li, Huadi Zheng, Haibo Hu,
- Abstract要約: クラス・フィーチャー・ウォーターマーク(CFW)は、レジリエンスの従来の手法よりも一貫して優れています。
WRKは、既存の透かしベンチマークにおいて、透かしの成功率を少なくとも88.79%削減する。
CFWはMEA転送性とポストMEA安定性の両方を同時に最適化する。
- 参考スコア(独自算出の注目度): 26.186586921585604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models constitute valuable intellectual property, yet remain vulnerable to model extraction attacks (MEA), where adversaries replicate their functionality through black-box queries. Model watermarking counters MEAs by embedding forensic markers for ownership verification. Current black-box watermarks prioritize MEA survival through representation entanglement, yet inadequately explore resilience against sequential MEAs and removal attacks. Our study reveals that this risk is underestimated because existing removal methods are weakened by entanglement. To address this gap, we propose Watermark Removal attacK (WRK), which circumvents entanglement constraints by exploiting decision boundaries shaped by prevailing sample-level watermark artifacts. WRK effectively reduces watermark success rates by at least 88.79% across existing watermarking benchmarks. For robust protection, we propose Class-Feature Watermarks (CFW), which improve resilience by leveraging class-level artifacts. CFW constructs a synthetic class using out-of-domain samples, eliminating vulnerable decision boundaries between original domain samples and their artifact-modified counterparts (watermark samples). CFW concurrently optimizes both MEA transferability and post-MEA stability. Experiments across multiple domains show that CFW consistently outperforms prior methods in resilience, maintaining a watermark success rate of at least 70.15% in extracted models even under the combined MEA and WRK distortion, while preserving the utility of protected models.
- Abstract(参考訳): 機械学習モデルは貴重な知的財産でありながら、敵がブラックボックスクエリを通じて機能を複製するモデル抽出攻撃(MEA)に弱いままである。
モデル透かしは、所有権検証のために法定マーカーを埋め込むことによってMEAに対処する。
現在のブラックボックスの透かしは、表現の絡み目を通してMEAの生存を優先しているが、シーケンシャルなMEAと除去攻撃に対する弾力性は不十分である。
本研究は,既存の除去方法が絡み合いによって弱まるため,このリスクが過小評価されていることを明らかにした。
このギャップに対処するために、サンプルレベルの透かしアーティファクトを普及させた決定境界を利用して、絡み合いの制約を回避するWatermark removal attacK (WRK)を提案する。
WRKは、既存の透かしベンチマークにおいて、透かしの成功率を少なくとも88.79%削減する。
頑健な保護のために,クラスレベルのアーティファクトを活用することでレジリエンスを向上させるクラス・フィーチャー・ウォーターマーク(CFW)を提案する。
CFWは、ドメイン外サンプルを使用して合成クラスを構築し、元のドメインサンプルとそれらのアーティファクト修正されたサンプル(ウォーターマークサンプル)の間の脆弱な決定境界を排除します。
CFWはMEA転送性とポストMEA安定性の両方を同時に最適化する。
複数の領域にわたる実験により、CFWは、保護されたモデルの実用性を保ちながら、抽出されたMEAとWRKの歪みの下でも、少なくとも70.15%の透かしの成功率を維持しながら、レジリエンスの従来の手法より一貫して優れていたことが示されている。
関連論文リスト
- Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Uncovering and Mitigating Destructive Multi-Embedding Attacks in Deepfake Proactive Forensics [17.112388802067425]
積極的法医学は 信頼できない 透かしを埋め込んで 信頼できる情報源の追跡を 可能にします
既存の手法は、1つの透かしを埋め込むという理想的な仮定に依存しており、これは現実のシナリオでは非現実的であることを証明している。
本稿では,この脆弱性に対処するため,AIS(Adversarial Interference Simulation)という訓練パラダイムを提案する。
本手法は,第2の埋め込み後であっても,元の透かしを正しく抽出する能力を維持することができる。
論文 参考訳(メタデータ) (2025-08-24T07:57:32Z) - On the Weaknesses of Backdoor-based Model Watermarking: An Information-theoretic Perspective [39.676548104635096]
機械学習モデルの知的財産権の保護は、AIセキュリティの急激な懸念として浮上している。
モデルウォーターマーキングは、機械学習モデルのオーナシップを保護するための強力なテクニックである。
本稿では,既存の手法の限界を克服するため,新しいウォーターマーク方式であるIn-distriion Watermark Embedding (IWE)を提案する。
論文 参考訳(メタデータ) (2024-09-10T00:55:21Z) - Watermarking Recommender Systems [52.207721219147814]
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-Distribution Watermarking (AOW)を紹介する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
論文 参考訳(メタデータ) (2024-07-17T06:51:24Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - RAW: A Robust and Agile Plug-and-Play Watermark Framework for AI-Generated Images with Provable Guarantees [33.61946642460661]
本稿ではRAWと呼ばれる堅牢でアジャイルな透かし検出フレームワークを紹介する。
我々は、透かしの存在を検出するために、透かしと共同で訓練された分類器を用いる。
このフレームワークは,透かし画像の誤分類に対する偽陽性率に関する証明可能な保証を提供する。
論文 参考訳(メタデータ) (2024-01-23T22:00:49Z) - Wide Flat Minimum Watermarking for Robust Ownership Verification of GANs [23.639074918667625]
ホワイトボックス攻撃に対するロバスト性を向上したGANのための新しいマルチビット・ボックスフリー透かし手法を提案する。
透かしは、GANトレーニング中に余分な透かし損失項を追加することで埋め込む。
その結果,透かしの存在が画像の品質に与える影響は無視できることがわかった。
論文 参考訳(メタデータ) (2023-10-25T18:38:10Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。