論文の概要: Character-Level Perturbations Disrupt LLM Watermarks
- arxiv url: http://arxiv.org/abs/2509.09112v1
- Date: Thu, 11 Sep 2025 02:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.208179
- Title: Character-Level Perturbations Disrupt LLM Watermarks
- Title(参考訳): LLM透かしの文字レベル摂動
- Authors: Zhaoxi Zhang, Xiaomei Zhang, Yanjun Zhang, He Zhang, Shirui Pan, Bo Liu, Asif Qumer Gill, Leo Yu Zhang,
- Abstract要約: 我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
- 参考スコア(独自算出の注目度): 64.60090923837701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) watermarking embeds detectable signals into generated text for copyright protection, misuse prevention, and content detection. While prior studies evaluate robustness using watermark removal attacks, these methods are often suboptimal, creating the misconception that effective removal requires large perturbations or powerful adversaries. To bridge the gap, we first formalize the system model for LLM watermark, and characterize two realistic threat models constrained on limited access to the watermark detector. We then analyze how different types of perturbation vary in their attack range, i.e., the number of tokens they can affect with a single edit. We observe that character-level perturbations (e.g., typos, swaps, deletions, homoglyphs) can influence multiple tokens simultaneously by disrupting the tokenization process. We demonstrate that character-level perturbations are significantly more effective for watermark removal under the most restrictive threat model. We further propose guided removal attacks based on the Genetic Algorithm (GA) that uses a reference detector for optimization. Under a practical threat model with limited black-box queries to the watermark detector, our method demonstrates strong removal performance. Experiments confirm the superiority of character-level perturbations and the effectiveness of the GA in removing watermarks under realistic constraints. Additionally, we argue there is an adversarial dilemma when considering potential defenses: any fixed defense can be bypassed by a suitable perturbation strategy. Motivated by this principle, we propose an adaptive compound character-level attack. Experimental results show that this approach can effectively defeat the defenses. Our findings highlight significant vulnerabilities in existing LLM watermark schemes and underline the urgency for the development of new robust mechanisms.
- Abstract(参考訳): 大型言語モデル (LLM) は、著作権保護、誤用防止、コンテンツ検出のために、検出可能な信号を生成されたテキストに埋め込む。
従来の研究では、透かし除去攻撃を用いて堅牢性を評価するが、これらの手法はしばしば最適ではないため、効果的な除去には大きな摂動や強力な敵が必要であるという誤解が生じる。
このギャップを埋めるために、まずLLM透かしのシステムモデルを定式化し、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルを特徴付ける。
次に、攻撃範囲で異なる種類の摂動がどう異なるか、すなわち、1回の編集で影響を受けるトークンの数を分析する。
キャラクタレベルの摂動(例えば、タイプミス、スワップ、削除、ホモグリフ)がトークン化過程を乱すことで同時に複数のトークンに影響を与えることを観察する。
キャラクタレベルの摂動は,最も制限された脅威モデルの下での透かし除去に著しく有効であることを示す。
さらに,参照検出器を最適化に用いるGAに基づく誘導除去攻撃を提案する。
透かし検出器に対するブラックボックスクエリが制限された実用的脅威モデルの下で,本手法は強い除去性能を示す。
実験により,現実的な制約下での透かし除去におけるキャラクタレベルの摂動の優位性とGAの有効性が確認された。
さらに我々は、潜在的な防御を考える際には、敵のジレンマがあり、任意の固定防御を適切な摂動戦略によってバイパスすることができると論じている。
この原理により、適応的な複合文字レベル攻撃を提案する。
実験結果から, 本手法は防衛を効果的に打ち負かすことができることが示された。
以上の結果から,既存のLCM透かし方式の重大な脆弱性が指摘され,新しいロバストな機構の開発に向けた緊急性の基盤となっている。
関連論文リスト
- Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach [35.319577498993354]
大規模言語モデル(LLM)の透かしのための新しい理論的枠組みを提案する。
本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。
本稿では,Gumbel-max の手法と並行してサロゲートモデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - Optimizing Adaptive Attacks against Watermarks for Language Models [5.798432964668272]
大規模言語モデル(LLM)は、望ましくないコンテンツを大規模に拡散するために誤用することができる。
透かしは、内容にメッセージを隠すことで誤用を抑え、秘密の透かしキーを使ってその検出を可能にする。
目的関数として透かしのロバスト性を定式化し、特定の透かし手法に対して適応的な攻撃を調整するために選好に基づく最適化を用いる。
論文 参考訳(メタデータ) (2024-10-03T12:37:39Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - No Free Lunch in LLM Watermarking: Trade-offs in Watermarking Design Choices [20.20770405297239]
LLM透かし方式における一般的な設計選択は、結果のシステムが驚くほど攻撃を受けやすいことを示す。
本稿では, LLM透かしのガイドラインと防御について述べる。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。