論文の概要: AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection
- arxiv url: http://arxiv.org/abs/2504.21044v1
- Date: Mon, 28 Apr 2025 14:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 00:08:27.35492
- Title: AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection
- Title(参考訳): AGATE:マルチモーダルモデル保護のためのステルスブラックボックス透かし
- Authors: Jianbo Gao, Keke Gai, Jing Yu, Liehuang Zhu, Qi Wu,
- Abstract要約: バックドアの透かしとしてOoD(Out-of-Distribution)データを選択し、著作権保護のためにオリジナルのモデルを再訓練する。
既存の方法は、敵による悪意のある検出と偽造を受けやすいため、透かしの回避につながる。
マルチモーダルモデル著作権保護におけるステルスネスとロバストネスの課題に対処するために,モデル-アンダーラインに依存しないブラックボックスのバックドアWunderlineatermarking Framework (AGATE)を提案する。
- 参考スコア(独自算出の注目度): 26.066755429896926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancement in large-scale Artificial Intelligence (AI) models offering multimodal services have become foundational in AI systems, making them prime targets for model theft. Existing methods select Out-of-Distribution (OoD) data as backdoor watermarks and retrain the original model for copyright protection. However, existing methods are susceptible to malicious detection and forgery by adversaries, resulting in watermark evasion. In this work, we propose Model-\underline{ag}nostic Black-box Backdoor W\underline{ate}rmarking Framework (AGATE) to address stealthiness and robustness challenges in multimodal model copyright protection. Specifically, we propose an adversarial trigger generation method to generate stealthy adversarial triggers from ordinary dataset, providing visual fidelity while inducing semantic shifts. To alleviate the issue of anomaly detection among model outputs, we propose a post-transform module to correct the model output by narrowing the distance between adversarial trigger image embedding and text embedding. Subsequently, a two-phase watermark verification is proposed to judge whether the current model infringes by comparing the two results with and without the transform module. Consequently, we consistently outperform state-of-the-art methods across five datasets in the downstream tasks of multimodal image-text retrieval and image classification. Additionally, we validated the robustness of AGATE under two adversarial attack scenarios.
- Abstract(参考訳): マルチモーダルサービスを提供する大規模人工知能(AI)モデルの最近の進歩は、AIシステムの基盤となり、モデル盗難の主要なターゲットとなっている。
既存の方法では、バックドアの透かしとしてOoD(Out-of-Distribution)データを選択し、著作権保護のために元のモデルを再訓練する。
しかし、既存の手法は敵による悪意のある検出と偽造の影響を受けるため、透かしの回避につながる。
本稿では,マルチモーダルモデル著作権保護におけるステルスネスとロバストネスの課題に対処するため,Model-\underline{ag}nostic Black-box Backdoor W\underline{ate}rmarking Framework (AGATE)を提案する。
具体的には、通常のデータセットからステルス的な逆トリガを生成するための逆トリガ生成法を提案し、セマンティックシフトを誘導しながら視覚的忠実度を提供する。
モデル出力間の異常検出の問題を軽減するため,逆トリガ画像埋め込みとテキスト埋め込みの距離を狭めることで,モデル出力を補正するポスト変換モジュールを提案する。
その後、2相透かし検証を行い、この2つの結果と変換モジュールの有無を比較して、現在のモデルが侵害するか否かを判定する。
その結果、マルチモーダル画像テキスト検索と画像分類の下流タスクにおいて、5つのデータセットにまたがる最先端の手法を一貫して上回ります。
さらに,2つの攻撃シナリオ下でのAGATEの堅牢性を検証した。
関連論文リスト
- SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models [77.80595722480074]
SleeperMarkは、回復力のある透かしをT2I拡散モデルに埋め込むように設計されたフレームワークである。
学習したセマンティックな概念から透かし情報を切り離すようモデルに誘導する。
各種拡散モデルにおけるSleeperMarkの有効性について実験を行った。
論文 参考訳(メタデータ) (2024-12-06T08:44:18Z) - Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution [22.933101948176606]
バックドアベースのモデル透かしは、リリースされたモデルにそのような特性を埋め込む、プライマリおよび最先端の方法である。
特徴属性の説明に検証動作を埋め込む新しい透かしパラダイムである$i.e.$, Explanation as a Watermark (EaaW) を設計する。
論文 参考訳(メタデータ) (2024-05-08T05:49:46Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models [71.13610023354967]
著作権保護と不適切なコンテンツ生成は、拡散モデルの実装に課題をもたらす。
本研究では,性能ロスレスかつトレーニング不要な拡散モデル透かし手法を提案する。
論文 参考訳(メタデータ) (2024-04-07T13:30:10Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Seeds Don't Lie: An Adaptive Watermarking Framework for Computer Vision
Models [44.80560808267494]
保護モデルに固有の振る舞いを活かして,保護モデルに透かしを施す適応フレームワークを提案する。
この透かしは、同じユニークな振る舞いを持つ抽出されたモデルを検出するために使用され、保護されたモデルのIPを無許可で使用することを示す。
この枠組みは,(1)未知のモデル抽出攻撃,(2)メソッドを実行する抽出モデル(例えば,重み付け)に対して頑健であることを示す。
論文 参考訳(メタデータ) (2022-11-24T14:48:40Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - DeepHider: A Multi-module and Invisibility Watermarking Scheme for
Language Model [0.0]
本稿では,モデル分類モジュールを置換し,モデル全体の微調整を行う新たな脅威を提案する。
私たちは、盗難の所有権ステートメントを防ぐために、タンパー保護やトレーサビリティといったブロックチェーンの特性を使用します。
実験の結果,提案手法は100%の透かし検証精度でオーナシップの検証に成功した。
論文 参考訳(メタデータ) (2022-08-09T11:53:24Z) - DynaMarks: Defending Against Deep Learning Model Extraction Using
Dynamic Watermarking [3.282282297279473]
ディープラーニング(DL)モデルの機能は、モデル抽出によって盗むことができる。
本稿では,DLモデルの知的財産権(IP)を保護するため,DynaMarksと呼ばれる新しい透かし手法を提案する。
論文 参考訳(メタデータ) (2022-07-27T06:49:39Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Model Watermarking for Image Processing Networks [120.918532981871]
深層モデルの知的財産権を保護する方法は、非常に重要であるが、真に研究されていない問題である。
画像処理モデルを保護するための最初のモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T18:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。