論文の概要: SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking
- arxiv url: http://arxiv.org/abs/2511.04711v1
- Date: Wed, 05 Nov 2025 13:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.546449
- Title: SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking
- Title(参考訳): SWAP:シークエンシャルウォーターマーキングによるソフトプロンプトの著作権監査に向けて
- Authors: Wenyuan Yang, Yichen Sun, Changzheng Chen, Zhixuan Chu, Jiaheng Zhang, Yiming Li, Dacheng Tao,
- Abstract要約: ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
- 参考スコア(独自算出の注目度): 58.475471437150674
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-scale vision-language models, especially CLIP, have demonstrated remarkable performance across diverse downstream tasks. Soft prompts, as carefully crafted modules that efficiently adapt vision-language models to specific tasks, necessitate effective copyright protection. In this paper, we investigate model copyright protection by auditing whether suspicious third-party models incorporate protected soft prompts. While this can be viewed as a special case of model ownership auditing, our analysis shows that existing techniques are ineffective due to prompt learning's unique characteristics. Non-intrusive auditing is inherently prone to false positives when independent models share similar data distributions with victim models. Intrusive approaches also fail: backdoor methods designed for CLIP cannot embed functional triggers, while extending traditional DNN backdoor techniques to prompt learning suffers from harmfulness and ambiguity challenges. We find that these failures in intrusive auditing stem from the same fundamental reason: watermarking operates within the same decision space as the primary task yet pursues opposing objectives. Motivated by these findings, we propose sequential watermarking for soft prompts (SWAP), which implants watermarks into a different and more complex space. SWAP encodes watermarks through a specific order of defender-specified out-of-distribution classes, inspired by the zero-shot prediction capability of CLIP. This watermark, which is embedded in a more complex space, keeps the original prediction label unchanged, making it less opposed to the primary task. We further design a hypothesis-test-guided verification protocol for SWAP and provide theoretical analyses of success conditions. Extensive experiments on 11 datasets demonstrate SWAP's effectiveness, harmlessness, and robustness against potential adaptive attacks.
- Abstract(参考訳): 大規模な視覚言語モデル、特にCLIPは、様々な下流タスクで顕著なパフォーマンスを示している。
ソフトプロンプトは、視覚言語モデルを特定のタスクに効率的に適応させるモジュールとして、効果的な著作権保護を必要とする。
本稿では、不審な第三者モデルに保護されたソフトプロンプトが組み込まれているかどうかを監査することで、モデル著作権保護について検討する。
このことはモデルオーナシップ監査の特別な場合と見なすことができるが、既存の手法は学習の急激な特徴のため効果がないことを示す。
非侵入的監査は、独立したモデルが同様のデータを犠牲者モデルと共有する場合、本質的に偽陽性に陥る。
CLIP用に設計されたバックドアメソッドは機能的なトリガを埋め込むことはできないが、従来のDNNバックドアテクニックを拡張して、有害性と曖昧性の課題に苦しむ学習を促す。
侵入監査におけるこれらの失敗は、ウォーターマーキングが主課題と同一の意思決定空間内で動作しながら、反対の目的を追求しているという、同じ根本的な理由から生じる。
これらの知見に触発され、より複雑な空間に透かしを埋め込むソフトプロンプト(SWAP)のシーケンシャルな透かしを提案する。
SWAPは、CLIPのゼロショット予測機能にインスパイアされたディフェンダー指定の配布クラスを通じて、透かしをエンコードする。
より複雑な空間に埋め込まれたこの透かしは、元の予測ラベルをそのままに保ち、主要なタスクに反しにくくする。
さらに、SWAPのための仮説テスト誘導検証プロトコルを設計し、成功条件の理論的解析を行う。
11のデータセットに対する大規模な実験は、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示している。
関連論文リスト
- Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Your Semantic-Independent Watermark is Fragile: A Semantic Perturbation Attack against EaaS Watermark [5.2431999629987]
様々な研究が、Eサービスの著作権を保護するためのバックドアベースの透かし方式を提案している。
本稿では,従来の透かし方式が意味非依存の特徴を持つことを示すとともに,セマンティック摂動攻撃(SPA)を提案する。
我々の理論的および実験的分析は、この意味に依存しない性質が、現在の透かしスキームを適応攻撃に脆弱にし、セマンティック摂動テストを利用して透かし検証を回避していることを示している。
論文 参考訳(メタデータ) (2024-11-14T11:06:34Z) - Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution [22.933101948176606]
バックドアベースのモデル透かしは、リリースされたモデルにそのような特性を埋め込む、プライマリおよび最先端の方法である。
特徴属性の説明に検証動作を埋め込む新しい透かしパラダイムである$i.e.$, Explanation as a Watermark (EaaW) を設計する。
論文 参考訳(メタデータ) (2024-05-08T05:49:46Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。