論文の概要: NSmark: Null Space Based Black-box Watermarking Defense Framework for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2410.13907v1
- Date: Wed, 16 Oct 2024 14:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:15.041004
- Title: NSmark: Null Space Based Black-box Watermarking Defense Framework for Pre-trained Language Models
- Title(参考訳): NSmark: 訓練済み言語モデルのためのNull Spaceベースのブラックボックス透かし防御フレームワーク
- Authors: Haodong Zhao, Jinming Hu, Peixuan Li, Fangqi Li, Jinrui Sha, Peixuan Chen, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: LL-LFEA攻撃に抵抗できるタスク非依存のブラックボックス透かし方式を提案する。
NSmarkは, (i) 所有者のデジタル署名を用いた透かし生成, (i) 拡散スペクトル変調による高ロバスト性向上, (ii) 透かし容量を最大化しながらPLM性能を維持する出力マッピング抽出器による透かし埋め込み, (iii) 抽出率と空隙整合性により評価された透かし検証の3段階からなる。
- 参考スコア(独自算出の注目度): 24.864736672581937
- License:
- Abstract: Pre-trained language models (PLMs) have emerged as critical intellectual property (IP) assets that necessitate protection. Although various watermarking strategies have been proposed, they remain vulnerable to Linear Functionality Equivalence Attacks (LFEA), which can invalidate most existing white-box watermarks without prior knowledge of the watermarking scheme or training data. This paper further analyzes and extends the attack scenarios of LFEA to the commonly employed black-box settings for PLMs by considering Last-Layer outputs (dubbed LL-LFEA). We discover that the null space of the output matrix remains invariant against LL-LFEA attacks. Based on this finding, we propose NSmark, a task-agnostic, black-box watermarking scheme capable of resisting LL-LFEA attacks. NSmark consists of three phases: (i) watermark generation using the digital signature of the owner, enhanced by spread spectrum modulation for increased robustness; (ii) watermark embedding through an output mapping extractor that preserves PLM performance while maximizing watermark capacity; (iii) watermark verification, assessed by extraction rate and null space conformity. Extensive experiments on both pre-training and downstream tasks confirm the effectiveness, reliability, fidelity, and robustness of our approach. Code is available at https://github.com/dongdongzhaoUP/NSmark.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、保護を必要とする重要な知的財産権(IP)資産として出現している。
様々な透かし戦略が提案されているが、まだ線形機能等価攻撃(LFEA)に弱いままであり、透かしスキームやトレーニングデータに関する事前知識なしに既存のほとんどのホワイトボックス透かしを無効化することができる。
本稿では,LFEAの攻撃シナリオをLast-Layer出力(LL-LFEA)を考慮し,PLMの一般的なブラックボックス設定に拡張する。
出力行列のヌル空間はLL-LFEA攻撃に対して不変であることがわかった。
そこで本研究では,LL-LFEA攻撃に抵抗できるタスク非依存のブラックボックス透かし方式NSmarkを提案する。
NSmarkは3つのフェーズから構成される。
一 所有者のデジタル署名を用いた透かし生成であって、広帯域変調により堅牢性を高めること。
二 透かし容量を最大化しつつ、PLM性能を保ちつつ出力マッピング抽出器に埋め込まれた透かし
三 抽出率及び空空間整合度により評価された透かし検証
本手法の有効性,信頼性,忠実性,堅牢性が確認された。
コードはhttps://github.com/dongdongzhaoUP/NSmarkで入手できる。
関連論文リスト
- ESpeW: Robust Copyright Protection for LLM-based EaaS via Embedding-Specific Watermark [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。
編集はモデル抽出攻撃に対して脆弱であり、著作権保護の緊急の必要性を強調している。
そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T04:34:49Z) - De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。
以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-28T08:41:30Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - DIP-Watermark: A Double Identity Protection Method Based on Robust Adversarial Watermark [13.007649270429493]
顔認識(FR)システムはプライバシーのリスクを引き起こす。
1つの対策は敵攻撃であり、不正な悪意のあるFRを欺くことである。
トレース可能な対角線透かしに基づく最初の二重識別保護方式を提案する。
論文 参考訳(メタデータ) (2024-04-23T02:50:38Z) - DeepEclipse: How to Break White-Box DNN-Watermarking Schemes [60.472676088146436]
既存のホワイトボックスの透かし除去方式とは大きく異なる難読化手法を提案する。
DeepEclipseは、下層の透かしスキームについて事前に知ることなく、透かし検出を回避できる。
評価の結果,DeepEclipseは複数のホワイトボックス透かし方式に優れていることがわかった。
論文 参考訳(メタデータ) (2024-03-06T10:24:47Z) - WARDEN: Multi-Directional Backdoor Watermarks for Embedding-as-a-Service Copyright Protection [7.660430606056949]
本稿では,複数の可能な透かし方向を組み込むことで,透かしの除去をより困難にするための新しいプロトコルを提案する。
我々の防衛アプローチであるWARDENは、特に透かしのステルスネスを高め、CSE攻撃に対する効果を実証的に示している。
論文 参考訳(メタデータ) (2024-03-03T10:39:27Z) - EmMark: Robust Watermarks for IP Protection of Embedded Quantized Large
Language Models [21.28690053570814]
本稿では,リソース制約されたエッジデバイス上に展開された組み込み大言語モデルの知的財産権(IP)を保護するための新しい透かしフレームワークであるEmMarkを紹介する。
悪意のあるエンドユーザーによって引き起こされるIP盗難のリスクに対処するため、EmMarkは、所有者がウォーターマークされたモデルの重みを問い合わせ、挿入されたシグネチャをマッチングすることで、所有権を認証することを可能にする。
論文 参考訳(メタデータ) (2024-02-27T23:30:17Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - Neural Dehydration: Effective Erasure of Black-box Watermarks from DNNs with Limited Data [23.90041044463682]
我々はtextscNeural Dehydration (textitabbrev. textscDehydra) と呼ばれる透かしに依存しない除去攻撃を提案する。
我々の攻撃パイプラインは、保護されたモデルの内部を利用して、透かしメッセージを復元し、解放する。
盗難されたモデルユーティリティの少なくとも90%を保存し、カバーされたすべての透かしの強い除去効果を達成する。
論文 参考訳(メタデータ) (2023-09-07T03:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。