論文の概要: Adaptive and robust watermark against model extraction attack
- arxiv url: http://arxiv.org/abs/2405.02365v1
- Date: Fri, 3 May 2024 06:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 20:19:44.912497
- Title: Adaptive and robust watermark against model extraction attack
- Title(参考訳): モデル抽出攻撃に対する適応的およびロバストな透かし
- Authors: Kaiyi Pang, Tao Qi, Chuhan Wu, Minhao Bai,
- Abstract要約: 本稿では,追加モジュールを訓練せずにモデル抽出攻撃に抵抗する,プラグアンドプレイIP保護透かし手法であるPromptShieldを提案する。
提案手法では,モデルの内部ロジットへのアクセスを必要とせず,プロンプト誘導キューを用いたモデル分布の変更を最小限に抑える。
- 参考スコア(独自算出の注目度): 47.744465701960806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have boosted Large Models as a Service (LMaaS) into a thriving business sector. But even model owners offering only API access while keeping model parameters and internal workings private, their Intellectual Property (IP) are still at risk of theft through model extraction attacks. To safeguard the IP of these models and mitigate unfair competition in the language model market, watermarking technology serves as an efficient post-hoc solution for identifying IP infringements. However, existing IP protection watermarking methods either explicitly alter the original output of the language model or implant watermark signals in the model logits. These methods forcefully distort the original distribution of the language model and impact the sampling process, leading to a decline in the quality of the generated text. The existing method also fails to achieve end-to-end adaptive watermark embedding and lack robustness verification in complex scenarios where watermark detection is subject to interference. To overcome these challenges, we propose PromptShield, a plug-and-play IP protection watermarking method to resist model extraction attacks without training additional modules. Leveraging the self-reminding properties inherent in large language models, we encapsulate the user's query with a watermark self-generated instruction, nudging the LLMs to automatically generate watermark words in its output without compromising generation quality. Our method does not require access to the model's internal logits and minimizes alterations to the model's distribution using prompt-guided cues. Comprehensive experimental results consistently demonstrate the effectiveness, harmlessness, and robustness of our watermark. Moreover, Our watermark detection method remains robust and high detection sensitivity even when subjected to interference.
- Abstract(参考訳): 大規模言語モデルは、LMaaS(Large Models as a Service)を繁栄するビジネスセクターへと押し上げた。
しかし、モデルパラメータと内部動作をプライベートに保ちながら、APIアクセスのみを提供するモデル所有者でさえ、そのIntellectual Property(IP)はモデル抽出攻撃による盗難のリスクを被っている。
これらのモデルのIPを保護し、言語モデル市場での不公平な競争を緩和するために、ウォーターマーキング技術はIP侵害を識別するための効率的なポストホックソリューションとして機能する。
しかし、既存のIP保護透かし手法は、言語モデルの本来の出力を明示的に変更するか、モデルロジットに透かし信号を埋め込むかのいずれかである。
これらの手法は、言語モデルの本来の分布を強制的に歪め、サンプリングプロセスに影響を与えるため、生成されたテキストの品質が低下する。
既存の手法では、透かし検出が干渉される複雑なシナリオにおいて、エンドツーエンドの適応透かし埋め込みを実現することができず、ロバスト性検証が欠如している。
これらの課題を克服するために,追加モジュールを訓練することなくモデル抽出攻撃に抵抗する,プラグアンドプレイIP保護透かし手法であるPromptShieldを提案する。
大規模言語モデルに固有の自己複製特性を活用して、ユーザクエリを透かし自己生成命令でカプセル化し、LLMをヌードすることで、生成品質を損なうことなく、出力中の透かし語を自動的に生成する。
提案手法では,モデルの内部ロジットへのアクセスを必要とせず,プロンプト誘導キューを用いたモデル分布の変更を最小限に抑える。
総合的な実験結果から、透かしの有効性、無害性、堅牢性が一貫して示されている。
さらに, 干渉を受けた場合でも, 透かし検出法は頑健であり, 検出感度も高い。
関連論文リスト
- WAPITI: A Watermark for Finetuned Open-Source LLMs [42.1087852764299]
WAPITIはパラメータ統合によってベースモデルから微調整モデルに透かしを転送する新しい手法である。
提案手法は,透かしの注入に成功し,微調整モデルとの互換性が高いことを示す。
論文 参考訳(メタデータ) (2024-10-09T01:41:14Z) - On the Weaknesses of Backdoor-based Model Watermarking: An Information-theoretic Perspective [39.676548104635096]
機械学習モデルの知的財産権の保護は、AIセキュリティの急激な懸念として浮上している。
モデルウォーターマーキングは、機械学習モデルのオーナシップを保護するための強力なテクニックである。
本稿では,既存の手法の限界を克服するため,新しいウォーターマーク方式であるIn-distriion Watermark Embedding (IWE)を提案する。
論文 参考訳(メタデータ) (2024-09-10T00:55:21Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Reversible Quantization Index Modulation for Static Deep Neural Network
Watermarking [57.96787187733302]
可逆的データ隠蔽法(RDH)は潜在的な解決策を提供するが、既存のアプローチはユーザビリティ、キャパシティ、忠実性の面で弱点に悩まされている。
量子化指数変調(QIM)を用いたRDHに基づく静的DNN透かし手法を提案する。
提案手法は,透かし埋め込みのための1次元量化器に基づく新しい手法を取り入れたものである。
論文 参考訳(メタデータ) (2023-05-29T04:39:17Z) - DynaMarks: Defending Against Deep Learning Model Extraction Using
Dynamic Watermarking [3.282282297279473]
ディープラーニング(DL)モデルの機能は、モデル抽出によって盗むことができる。
本稿では,DLモデルの知的財産権(IP)を保護するため,DynaMarksと呼ばれる新しい透かし手法を提案する。
論文 参考訳(メタデータ) (2022-07-27T06:49:39Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Deep Model Intellectual Property Protection via Deep Watermarking [122.87871873450014]
ディープニューラルネットワークは深刻なip侵害リスクにさらされている。
ターゲットの深層モデルを考えると、攻撃者がその全情報を知っていれば、微調整で簡単に盗むことができる。
低レベルのコンピュータビジョンや画像処理タスクで訓練されたディープネットワークを保護するための新しいモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T18:58:21Z) - A Systematic Review on Model Watermarking for Neural Networks [1.2691047660244335]
この研究は、機械学習モデルのための異なるクラスの透かしスキームを特定し解析する分類法を提案する。
これは、構造化推論を可能にする統一的な脅威モデルを導入し、ウォーターマーキング手法の有効性の比較を行う。
望ましいセキュリティ要件とMLモデルの透かしに対する攻撃を体系化する。
論文 参考訳(メタデータ) (2020-09-25T12:03:02Z) - Model Watermarking for Image Processing Networks [120.918532981871]
深層モデルの知的財産権を保護する方法は、非常に重要であるが、真に研究されていない問題である。
画像処理モデルを保護するための最初のモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T18:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。