論文の概要: RLCracker: Exposing the Vulnerability of LLM Watermarks with Adaptive RL Attacks
- arxiv url: http://arxiv.org/abs/2509.20924v1
- Date: Thu, 25 Sep 2025 09:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.808252
- Title: RLCracker: Exposing the Vulnerability of LLM Watermarks with Adaptive RL Attacks
- Title(参考訳): RLCracker: 適応的なRL攻撃によるLCM透かしの脆弱性の露呈
- Authors: Hanbo Huang, Yiran Zhang, Hao Zheng, Xuan Gong, Yihan Li, Lin Liu, Shiyu Liang,
- Abstract要約: 適応的強靭性半径(Adaptive robustness radius)は、適応的敵に対する透かし抵抗性を定量化する公式な計量である。
RLCrackerは強化学習(RL)に基づく適応攻撃であり,意味的忠実さを維持しながら透かしを消去する。
その結果、適応攻撃は広範囲に効果があり、現在のウォーターマーク防御に根本的な脅威をもたらすことが確認された。
- 参考スコア(独自算出の注目度): 18.75982610851903
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) watermarking has shown promise in detecting AI-generated content and mitigating misuse, with prior work claiming robustness against paraphrasing and text editing. In this paper, we argue that existing evaluations are not sufficiently adversarial, obscuring critical vulnerabilities and overstating the security. To address this, we introduce adaptive robustness radius, a formal metric that quantifies watermark resilience against adaptive adversaries. We theoretically prove that optimizing the attack context and model parameters can substantially reduce this radius, making watermarks highly susceptible to paraphrase attacks. Leveraging this insight, we propose RLCracker, a reinforcement learning (RL)-based adaptive attack that erases watermarks while preserving semantic fidelity. RLCracker requires only limited watermarked examples and zero access to the detector. Despite weak supervision, it empowers a 3B model to achieve 98.5% removal success and an average 0.92 P-SP score on 1,500-token Unigram-marked texts after training on only 100 short samples. This performance dramatically exceeds 6.75% by GPT-4o and generalizes across five model sizes over ten watermarking schemes. Our results confirm that adaptive attacks are broadly effective and pose a fundamental threat to current watermarking defenses.
- Abstract(参考訳): 大規模な言語モデル(LLM)の透かしは、AI生成コンテンツの検出と誤用を軽減し、パラフレーズやテキスト編集に対する堅牢性を主張している。
本稿では,既存の評価は十分な敵意を持たず,重大な脆弱性を隠蔽し,セキュリティを過大評価している。
そこで我々は適応的強靭性半径(アダプティブ・ロバストネス半径)を導入し,適応的敵に対する透かしのレジリエンスを定量化する。
理論的には、攻撃コンテキストとモデルパラメータを最適化することで、この半径を大幅に減らし、ウォーターマークがパラフレーズ攻撃の影響を受けやすいことを証明している。
この知見を活用することで、意味的忠実性を維持しながら透かしを消去する強化学習(RL)に基づく適応攻撃であるRCCrackerを提案する。
RLCrackerは、限られた透かしのサンプルと検出器へのゼロアクセスしか必要としない。
監督が弱いにもかかわらず、3Bモデルでは98.5%の除去成功と、わずか100個の短いサンプルで訓練した後、1500個のユニグラムマーク付きテキストで平均0.92のP-SPスコアを達成することができる。
この性能はGPT-4oで6.75%を超え、10種類の透かし方式で5つのモデルサイズで一般化される。
その結果、適応攻撃は広範囲に効果があり、現在のウォーターマーク防御に根本的な脅威をもたらすことが確認された。
関連論文リスト
- Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Optimizing Adaptive Attacks against Watermarks for Language Models [5.798432964668272]
大規模言語モデル(LLM)は、望ましくないコンテンツを大規模に拡散するために誤用することができる。
透かしは、内容にメッセージを隠すことで誤用を抑え、秘密の透かしキーを使ってその検出を可能にする。
目的関数として透かしのロバスト性を定式化し、特定の透かし手法に対して適応的な攻撃を調整するために選好に基づく最適化を用いる。
論文 参考訳(メタデータ) (2024-10-03T12:37:39Z) - CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning [53.766434746801366]
バックドアトリガの特徴的接続を遮断するための細粒な textbfText textbfAlignment textbfCleaner (TA-Cleaner) を提案する。
TA-Cleanerは、ファインタニングベースの防御技術の中で最先端の防御性を達成している。
論文 参考訳(メタデータ) (2024-09-26T07:35:23Z) - Leveraging Optimization for Adaptive Attacks on Image Watermarks [31.70167647613335]
ウォーターマーキングは、生成されたコンテンツを隠されたメッセージでマークすることで誤用を検知し、秘密のウォーターマーキングキーを使用して検出する。
堅牢性を評価するには、特定の透かしアルゴリズムに対する適応的な攻撃を設計する必要がある。
画像品質を劣化させることなく,5つの透かし法を全て破壊できることを示す。
論文 参考訳(メタデータ) (2023-09-29T03:36:42Z) - (De)Randomized Smoothing for Certifiable Defense against Patch Attacks [136.79415677706612]
我々は、所定の画像とパッチ攻撃サイズを保証する、パッチ攻撃に対する認証可能な防御を導入する。
本手法はランダム化スムースなロバスト性スキームの幅広いクラスに関係している。
その結果,CIFAR-10およびImageNetに対するパッチ攻撃に対する認証済みの防御技術が確立した。
論文 参考訳(メタデータ) (2020-02-25T08:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。