論文の概要: ModelShield: Adaptive and Robust Watermark against Model Extraction Attack
- arxiv url: http://arxiv.org/abs/2405.02365v3
- Date: Mon, 30 Sep 2024 13:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:57:27.787814
- Title: ModelShield: Adaptive and Robust Watermark against Model Extraction Attack
- Title(参考訳): ModelShield: モデル抽出攻撃に対する適応性とロバストな透かし
- Authors: Kaiyi Pang, Tao Qi, Chuhan Wu, Minhao Bai, Minghu Jiang, Yongfeng Huang,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
- 参考スコア(独自算出の注目度): 58.46326901858431
- License:
- Abstract: Large language models (LLMs) demonstrate general intelligence across a variety of machine learning tasks, thereby enhancing the commercial value of their intellectual property (IP). To protect this IP, model owners typically allow user access only in a black-box manner, however, adversaries can still utilize model extraction attacks to steal the model intelligence encoded in model generation. Watermarking technology offers a promising solution for defending against such attacks by embedding unique identifiers into the model-generated content. However, existing watermarking methods often compromise the quality of generated content due to heuristic alterations and lack robust mechanisms to counteract adversarial strategies, thus limiting their practicality in real-world scenarios. In this paper, we introduce an adaptive and robust watermarking method (named ModelShield) to protect the IP of LLMs. Our method incorporates a self-watermarking mechanism that allows LLMs to autonomously insert watermarks into their generated content to avoid the degradation of model content. We also propose a robust watermark detection mechanism capable of effectively identifying watermark signals under the interference of varying adversarial strategies. Besides, ModelShield is a plug-and-play method that does not require additional model training, enhancing its applicability in LLM deployments. Extensive evaluations on two real-world datasets and three LLMs demonstrate that our method surpasses existing methods in terms of defense effectiveness and robustness while significantly reducing the degradation of watermarking on the model-generated content.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用知性を示し、それによって知的財産(IP)の商業的価値を高める。
このIPを保護するため、モデル所有者は通常ブラックボックス方式でのみユーザーアクセスを許可するが、敵はモデル抽出攻撃を利用してモデル生成で符号化されたモデルインテリジェンスを盗むことができる。
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
しかし、既存の透かし手法は、ヒューリスティックな変化によって生成されたコンテンツの質を損なうことが多く、敵の戦略に対抗するための堅牢なメカニズムが欠如しているため、現実のシナリオでは実用性が制限される。
本稿では,LLMのIPを保護するために適応的かつ堅牢な透かし方式(ModelShield)を提案する。
提案手法では, LLM が生成したコンテンツに自動的に透かしを挿入し, モデル内容の劣化を回避する自己透かし機構を組み込む。
また,異なる対角戦略の干渉下で,透かし信号を効果的に識別できる頑健な透かし検出機構を提案する。
さらに、ModelShieldは追加のモデルトレーニングを必要としないプラグイン・アンド・プレイ方式であり、LCMデプロイメントにおける適用性を高めている。
実世界の2つのデータセットと3つのLCMの大規模な評価により,本手法は防衛効果とロバスト性の観点から既存の手法を超越し,モデル生成コンテンツに対する透かしの劣化を著しく低減することを示した。
関連論文リスト
- Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging [25.327483618051378]
モデルマージシナリオにおけるIP保護手法の堅牢性に関する最初の研究を行う。
我々は、量子化ウォーターマーキングと命令フィンガープリントの2つの最先端IP保護技術について検討する。
実験結果から,現在のLarge Language Model (LLM) の透かし技術はマージモデルでは生き残れないが,モデルフィンガープリント技術では生き残ることが示唆された。
論文 参考訳(メタデータ) (2024-04-08T04:30:33Z) - Double-I Watermark: Protecting Model Copyright for LLM Fine-tuning [45.09125828947013]
提案手法は、微調整中に特定の透かし情報をカスタマイズされたモデルに効果的に注入する。
提案手法を各種微調整法で評価し, その無害性, 頑健性, 独特性, 不受容性, 妥当性を定量的および定性的な分析により検証した。
論文 参考訳(メタデータ) (2024-02-22T04:55:14Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Reversible Quantization Index Modulation for Static Deep Neural Network
Watermarking [57.96787187733302]
可逆的データ隠蔽法(RDH)は潜在的な解決策を提供するが、既存のアプローチはユーザビリティ、キャパシティ、忠実性の面で弱点に悩まされている。
量子化指数変調(QIM)を用いたRDHに基づく静的DNN透かし手法を提案する。
提案手法は,透かし埋め込みのための1次元量化器に基づく新しい手法を取り入れたものである。
論文 参考訳(メタデータ) (2023-05-29T04:39:17Z) - DynaMarks: Defending Against Deep Learning Model Extraction Using
Dynamic Watermarking [3.282282297279473]
ディープラーニング(DL)モデルの機能は、モデル抽出によって盗むことができる。
本稿では,DLモデルの知的財産権(IP)を保護するため,DynaMarksと呼ばれる新しい透かし手法を提案する。
論文 参考訳(メタデータ) (2022-07-27T06:49:39Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Deep Model Intellectual Property Protection via Deep Watermarking [122.87871873450014]
ディープニューラルネットワークは深刻なip侵害リスクにさらされている。
ターゲットの深層モデルを考えると、攻撃者がその全情報を知っていれば、微調整で簡単に盗むことができる。
低レベルのコンピュータビジョンや画像処理タスクで訓練されたディープネットワークを保護するための新しいモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T18:58:21Z) - A Systematic Review on Model Watermarking for Neural Networks [1.2691047660244335]
この研究は、機械学習モデルのための異なるクラスの透かしスキームを特定し解析する分類法を提案する。
これは、構造化推論を可能にする統一的な脅威モデルを導入し、ウォーターマーキング手法の有効性の比較を行う。
望ましいセキュリティ要件とMLモデルの透かしに対する攻撃を体系化する。
論文 参考訳(メタデータ) (2020-09-25T12:03:02Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z) - Model Watermarking for Image Processing Networks [120.918532981871]
深層モデルの知的財産権を保護する方法は、非常に重要であるが、真に研究されていない問題である。
画像処理モデルを保護するための最初のモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T18:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。