論文の概要: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2510.10987v1
- Date: Mon, 13 Oct 2025 03:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.191661
- Title: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
- Title(参考訳): DITTO:知識蒸留による透かしLLMのスポーフィング・アタック・フレームワーク
- Authors: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han,
- Abstract要約: 我々は、悪意あるモデルが信頼された被害者モデルの本物の透かしを含むテキストを生成できる高度な攻撃である、透かしの脅威を導入する。
透かし付き教師モデルから知識を抽出することにより,攻撃者が被害者モデルの透かし信号を盗み,複製することができる。
この研究は、テキストオーサシップの検証において重要なセキュリティギャップを明らかにし、専門家が模倣したものと真正な透かしを区別できる技術へのパラダイムシフトを要求する。
- 参考スコア(独自算出の注目度): 8.046891981864235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
- Abstract(参考訳): LLM透かしの約束は、特定の透かしが特定のモデルによるオーサリングを証明するという中核的な仮定に基づいている。
この仮定が危険なほど欠陥があることを実証する。
我々は、悪意あるモデルが信頼された被害者モデルの本物の透かしを含むテキストを生成できる高度な攻撃である、透かしの脅威を導入する。
これにより、偽情報のような有害な内容のシームレスな誤帰を、信頼できる情報源にもたらすことができる。
我々の攻撃の鍵は、微調整中に意図しないデータパターンの継承である透かし放射能を、発見可能な特性から攻撃ベクトルに戻すことである。
透かし付き教師モデルから知識を抽出することにより,攻撃者が被害者モデルの透かし信号を盗み,複製することができる。
この研究は、テキストオーサシップの検証において重要なセキュリティギャップを明らかにし、専門家が模倣したものと真正な透かしを区別できる技術へのパラダイムシフトを要求する。
私たちのコードはhttps://github.com/hsannn/ditto.git.comで公開されています。
関連論文リスト
- Mitigating Watermark Forgery in Generative Models via Randomized Key Selection [33.12939822735328]
主要なセキュリティ脅威は、敵がプロバイダの透かしをコンテンツに挿入する偽造攻撃である。
既存の防御は、複数のキーを持つ多くの透かしを同じコンテンツに埋め込むことによって偽造に抵抗する。
本稿では,攻撃者が収集した透かし付きコンテンツの数に対して,確実に偽造に抵抗する防御法を提案する。
論文 参考訳(メタデータ) (2025-07-10T15:52:32Z) - Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation? [75.99961894619986]
本稿では,学生モデルが知識蒸留により,透かしの継承を回避しつつ,教師モデルの能力を獲得することができるかどうかを考察する。
本稿では,未ターゲットおよび目標とするトレーニングデータパラフレージング(UP,TP)による蒸留前除去と,推論時透かし中和(WN)による蒸留後除去の2つのカテゴリを提案する。
論文 参考訳(メタデータ) (2025-02-17T09:34:19Z) - Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models [16.57738116313139]
攻撃者は、異なる潜在空間やアーキテクチャであっても、無関係なモデルを利用して、強力で現実的な偽造攻撃を行うことができることを示す。
第1は、対象の透かしを実画像に印字し、無関係のLCMにおいて任意の画像の潜在表現を操作する。
第2の攻撃は、透かし画像を反転させて任意のプロンプトで再生することにより、目標の透かしで新たな画像を生成する。
論文 参考訳(メタデータ) (2024-12-04T12:57:17Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Invisible Image Watermarks Are Provably Removable Using Generative AI [47.25747266531665]
Invisibleの透かしは、所有者によってのみ検出可能な隠されたメッセージを埋め込むことで、画像の著作権を保護する。
我々は、これらの見えない透かしを取り除くために、再生攻撃のファミリーを提案する。
提案手法は,まず画像にランダムノイズを加えて透かしを破壊し,画像を再構成する。
論文 参考訳(メタデータ) (2023-06-02T23:29:28Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。