論文の概要: WARDEN: Multi-Directional Backdoor Watermarks for Embedding-as-a-Service
Copyright Protection
- arxiv url: http://arxiv.org/abs/2403.01472v1
- Date: Sun, 3 Mar 2024 10:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:17:06.907928
- Title: WARDEN: Multi-Directional Backdoor Watermarks for Embedding-as-a-Service
Copyright Protection
- Title(参考訳): WARDEN: エンベッド・アズ・ア・サービス保護のための多方向バックドア透かし
- Authors: Anudeex Shetty, Yue Teng, Ke He, Qiongkai Xu
- Abstract要約: 本稿では,複数の可能な透かし方向を組み込むことで,透かしの除去をより困難にするための新しいプロトコルを提案する。
我々の防衛アプローチであるWARDENは、特に透かしのステルスネスを高め、CSE攻撃に対して実証的に有効であることが示されている。
- 参考スコア(独自算出の注目度): 8.368470115534695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding as a Service (EaaS) has become a widely adopted solution, which
offers feature extraction capabilities for addressing various downstream tasks
in Natural Language Processing (NLP). Prior studies have shown that EaaS can be
prone to model extraction attacks; nevertheless, this concern could be
mitigated by adding backdoor watermarks to the text embeddings and subsequently
verifying the attack models post-publication. Through the analysis of the
recent watermarking strategy for EaaS, EmbMarker, we design a novel CSE
(Clustering, Selection, Elimination) attack that removes the backdoor watermark
while maintaining the high utility of embeddings, indicating that the previous
watermarking approach can be breached. In response to this new threat, we
propose a new protocol to make the removal of watermarks more challenging by
incorporating multiple possible watermark directions. Our defense approach,
WARDEN, notably increases the stealthiness of watermarks and empirically has
been shown effective against CSE attack.
- Abstract(参考訳): 組み込み・アズ・ア・サービス(EaaS)は、自然言語処理(NLP)におけるさまざまな下流タスクに対処する機能抽出機能を提供する、広く採用されているソリューションである。
しかしながら、この懸念は、テキスト埋め込みにバックドアの透かしを追加し、その後に公開後の攻撃モデルを検証することで緩和される可能性がある。
eaasの最近の透かし戦略であるembmarkerの分析を通じて、我々は、埋め込みの高ユーティリティを維持しながらバックドアの透かしを取り除く新しいcse攻撃(クラスタ化、選択、削除)を設計し、以前の透かしアプローチを破ることができることを示す。
この新たな脅威に対応して,複数のウォーターマーク方向を組み込むことで,ウォーターマークの除去をより困難にするための新しいプロトコルを提案する。
我々の防衛アプローチであるWARDENは、特に透かしのステルスネスを高め、CSE攻撃に対して実証的に有効であることが示されている。
関連論文リスト
- DeepEclipse: How to Break White-Box DNN-Watermarking Schemes [60.472676088146436]
既存のホワイトボックスの透かし除去方式とは大きく異なる難読化手法を提案する。
DeepEclipseは、下層の透かしスキームについて事前に知ることなく、透かし検出を回避できる。
評価の結果,DeepEclipseは複数のホワイトボックス透かし方式に優れていることがわかった。
論文 参考訳(メタデータ) (2024-03-06T10:24:47Z) - Attacking LLM Watermarks by Exploiting Their Strengths [22.07546496631127]
生成モデルは、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツをミラーすることを可能にする。
モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。
既存の透かし方式が驚くほど攻撃を受けやすいことを示します。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - Wide Flat Minimum Watermarking for Robust Ownership Verification of GANs [23.639074918667625]
ホワイトボックス攻撃に対するロバスト性を向上したGANのための新しいマルチビット・ボックスフリー透かし手法を提案する。
透かしは、GANトレーニング中に余分な透かし損失項を追加することで埋め込む。
その結果,透かしの存在が画像の品質に与える影響は無視できることがわかった。
論文 参考訳(メタデータ) (2023-10-25T18:38:10Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Watermark Vaccine: Adversarial Attacks to Prevent Watermark Removal [69.10633149787252]
本稿では,対人機械学習による対人防御機構を提案する。
破壊性ウォーターマークワクチン(DWV)は、透かし除去ネットワークを通過した後、宿主のイメージと透かしを破滅させる。
Inerasable Watermark Vaccine(IWV)は、透かしが取り除かれないようにし、目立たないようにする別の方法だ。
論文 参考訳(メタデータ) (2022-07-17T13:50:02Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。