論文の概要: Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2504.17480v1
- Date: Thu, 24 Apr 2025 12:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.351574
- Title: Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation
- Title(参考訳): 大規模言語モデル透かしに対する統一的な攻撃:無許可の知識蒸留におけるスクラブリングとスクラブ
- Authors: Xin Yi, Shunfan Zhengc, Linlin Wanga, Xiaoling Wang, Liang He,
- Abstract要約: 非許可の知識蒸留における双方向攻撃を可能にする統合フレームワークとして,コントラスト復号型知識蒸留(CDG-KD)を提案する。
提案手法では, 学生モデルと弱透かし参照の出力を比較して, 劣化あるいは増幅された透かしテキストを抽出するために, コントラスト復号を用いる。
本研究は, 頑丈で鍛造不可能な透かし方式の開発において, 重要な必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 18.226065936358502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking has emerged as a critical technique for combating misinformation and protecting intellectual property in large language models (LLMs). A recent discovery, termed watermark radioactivity, reveals that watermarks embedded in teacher models can be inherited by student models through knowledge distillation. On the positive side, this inheritance allows for the detection of unauthorized knowledge distillation by identifying watermark traces in student models. However, the robustness of watermarks against scrubbing attacks and their unforgeability in the face of spoofing attacks under unauthorized knowledge distillation remain largely unexplored. Existing watermark attack methods either assume access to model internals or fail to simultaneously support both scrubbing and spoofing attacks. In this work, we propose Contrastive Decoding-Guided Knowledge Distillation (CDG-KD), a unified framework that enables bidirectional attacks under unauthorized knowledge distillation. Our approach employs contrastive decoding to extract corrupted or amplified watermark texts via comparing outputs from the student model and weakly watermarked references, followed by bidirectional distillation to train new student models capable of watermark removal and watermark forgery, respectively. Extensive experiments show that CDG-KD effectively performs attacks while preserving the general performance of the distilled model. Our findings underscore critical need for developing watermarking schemes that are robust and unforgeable.
- Abstract(参考訳): ウォーターマーキングは、誤情報と闘い、大きな言語モデル(LLM)における知的財産権を保護する重要な手法として登場した。
最近の発見は「透かし放射能」と呼ばれ、教師モデルに埋め込まれた透かしは、知識の蒸留を通じて学生モデルによって継承できることを示している。
肯定的な側面から、この遺伝は、学生モデルにおける透かし跡を特定することによって、無許可の知識蒸留の検出を可能にする。
しかし、無許可の知識蒸留によるスプーフ攻撃に直面したスクレイプ攻撃に対する透かしの頑丈さと、その偽造性は、未解明のままである。
既存のウォーターマーク攻撃手法では、モデル内部へのアクセスを前提とするか、スクラブ攻撃とスプーフ攻撃の両方を同時にサポートできない。
本研究では,無許可の知識蒸留における双方向攻撃を可能にする統合フレームワークであるContrastive Decoding-Guided Knowledge Distillation (CDG-KD)を提案する。
提案手法は, 学生モデルと弱透かし参照の出力を比較して, 劣化した又は増幅された透かしテキストを抽出するために, 対照的な復号法を用いており, 次いで, 透かし除去が可能な新しい学生モデルと透かし偽造の訓練を行うための双方向蒸留法を用いている。
大規模実験により,CDG-KDは蒸留モデルの一般性能を維持しながら効果的に攻撃を行うことが示された。
本研究は, 頑丈で鍛造不可能な透かし方式の開発において, 重要な必要性を浮き彫りにしている。
関連論文リスト
- Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation? [75.99961894619986]
本稿では,学生モデルが知識蒸留により,透かしの継承を回避しつつ,教師モデルの能力を獲得することができるかどうかを考察する。
本稿では,未ターゲットおよび目標とするトレーニングデータパラフレージング(UP,TP)による蒸留前除去と,推論時透かし中和(WN)による蒸留後除去の2つのカテゴリを提案する。
論文 参考訳(メタデータ) (2025-02-17T09:34:19Z) - Robustness of Watermarking on Text-to-Image Diffusion Models [9.277492743469235]
本稿では,透かし埋め込みとテキスト・ツー・イメージ・ジェネレーション処理を統合することで生成する透かしの堅牢性について検討する。
生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-04T13:59:09Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - RAW: A Robust and Agile Plug-and-Play Watermark Framework for AI-Generated Images with Provable Guarantees [33.61946642460661]
本稿ではRAWと呼ばれる堅牢でアジャイルな透かし検出フレームワークを紹介する。
我々は、透かしの存在を検出するために、透かしと共同で訓練された分類器を用いる。
このフレームワークは,透かし画像の誤分類に対する偽陽性率に関する証明可能な保証を提供する。
論文 参考訳(メタデータ) (2024-01-23T22:00:49Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Robustness of AI-Image Detectors: Fundamental Limits and Practical
Attacks [47.04650443491879]
我々は、透かしやディープフェイク検出器を含む様々なAI画像検出器の堅牢性を分析する。
ウォーターマーキング手法は,攻撃者が実際の画像をウォーターマーキングとして識別することを目的としたスプーフ攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2023-09-29T18:30:29Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Deep Model Intellectual Property Protection via Deep Watermarking [122.87871873450014]
ディープニューラルネットワークは深刻なip侵害リスクにさらされている。
ターゲットの深層モデルを考えると、攻撃者がその全情報を知っていれば、微調整で簡単に盗むことができる。
低レベルのコンピュータビジョンや画像処理タスクで訓練されたディープネットワークを保護するための新しいモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T18:58:21Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。