論文の概要: Enhancing LLM Watermark Resilience Against Both Scrubbing and Spoofing Attacks
- arxiv url: http://arxiv.org/abs/2507.06274v1
- Date: Tue, 08 Jul 2025 11:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.341163
- Title: Enhancing LLM Watermark Resilience Against Both Scrubbing and Spoofing Attacks
- Title(参考訳): LLM透かしの耐水性向上とスクラブ攻撃
- Authors: Huanming Shen, Baizhou Huang, Xiaojun Wan,
- Abstract要約: この研究は、ウォーターマークウィンドウ内の複数のトークンが独立して検出をサポートすることができる新しいメカニズム、同等のテクスチャキーを導入している。
冗長性に基づいて,サブボキャブラリ等価tExture Key(SEEK)を用いた新しい透かし方式を提案する。
- 参考スコア(独自算出の注目度): 40.287474469791235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking is a promising defense against the misuse of large language models (LLMs), yet it remains vulnerable to scrubbing and spoofing attacks. This vulnerability stems from an inherent trade-off governed by watermark window size: smaller windows resist scrubbing better but are easier to reverse-engineer, enabling low-cost statistics-based spoofing attacks. This work breaks this trade-off by introducing a novel mechanism, equivalent texture keys, where multiple tokens within a watermark window can independently support the detection. Based on the redundancy, we propose a novel watermark scheme with Sub-vocabulary decomposed Equivalent tExture Key (SEEK). It achieves a Pareto improvement, increasing the resilience against scrubbing attacks without compromising robustness to spoofing. Experiments demonstrate SEEK's superiority over prior method, yielding spoofing robustness gains of +88.2%/+92.3%/+82.0% and scrubbing robustness gains of +10.2%/+6.4%/+24.6% across diverse dataset settings.
- Abstract(参考訳): ウォーターマーキングは、大きな言語モデル(LLM)の誤用に対する有望な防御である。
この脆弱性は、ウォーターマークのウィンドウサイズによって支配される固有のトレードオフに起因している。
この作業は、ウォーターマークウィンドウ内の複数のトークンが独立して検出をサポートする新しいメカニズムである同等のテクスチャキーを導入することで、このトレードオフを破る。
この冗長性に基づいて,サブボキャブラリを分解した等価tExture Key (SEEK) を用いた新しい透かし方式を提案する。
Paretoの改善を実現し、スプーフィングに対する堅牢性を損なうことなく、スクラッピング攻撃に対するレジリエンスを高める。
実験では、SEEKが先行手法よりも優れていることを示し、スプーリングロバスト性は+88.2%/+92.3%/+82.0%、スプーリングロバスト性は+10.2%/+6.4%/+24.6%、様々なデータセット設定で+10.2%/+6.4%/+24.6%である。
関連論文リスト
- Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks [36.01146548147208]
テキスト透かしアルゴリズムは、テキストの品質を保証するために、ハイエントロピートークンに透かしを埋め込む。
本稿では,この外観上の不明瞭な設計が攻撃者によって悪用され,透かしの堅牢性に重大なリスクを及ぼすことを明らかにする。
本稿では,トークンの自己情報を計算することで,その脆弱性を利用する汎用的なパラフレーズ攻撃を提案する。
論文 参考訳(メタデータ) (2025-05-08T12:39:00Z) - Optimizing Adaptive Attacks against Watermarks for Language Models [5.798432964668272]
大規模言語モデル(LLM)は、望ましくないコンテンツを大規模に拡散するために誤用することができる。
透かしは、内容にメッセージを隠すことで誤用を抑え、秘密の透かしキーを使ってその検出を可能にする。
目的関数として透かしのロバスト性を定式化し、特定の透かし手法に対して適応的な攻撃を調整するために選好に基づく最適化を用いる。
論文 参考訳(メタデータ) (2024-10-03T12:37:39Z) - CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning [53.766434746801366]
バックドアトリガの特徴的接続を遮断するための細粒な textbfText textbfAlignment textbfCleaner (TA-Cleaner) を提案する。
TA-Cleanerは、ファインタニングベースの防御技術の中で最先端の防御性を達成している。
論文 参考訳(メタデータ) (2024-09-26T07:35:23Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Leveraging Optimization for Adaptive Attacks on Image Watermarks [31.70167647613335]
ウォーターマーキングは、生成されたコンテンツを隠されたメッセージでマークすることで誤用を検知し、秘密のウォーターマーキングキーを使用して検出する。
堅牢性を評価するには、特定の透かしアルゴリズムに対する適応的な攻撃を設計する必要がある。
画像品質を劣化させることなく,5つの透かし法を全て破壊できることを示す。
論文 参考訳(メタデータ) (2023-09-29T03:36:42Z) - WavMark: Watermarking for Audio Generation [70.65175179548208]
本稿では,わずか1秒の音声スニペット内に最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。
透かしは人間の感覚に影響されず、様々な攻撃に対して強い弾力性を示す。
合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-24T13:17:35Z) - SoK: How Robust is Image Classification Deep Neural Network
Watermarking? (Extended Version) [16.708069984516964]
我々は,最近提案された,ロバスト性を主張する透かし方式が,大規模な除去攻撃に対して堅牢であるか否かを評価する。
調査されたウォーターマーキングスキームのいずれも、実際のデータセットでは堅牢ではない。
我々は,より現実的な敵モデルを用いて,より広範囲にわたる除去攻撃に対して,透かし方式を評価する必要があることを示す。
論文 参考訳(メタデータ) (2021-08-11T00:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。