論文の概要: Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks
- arxiv url: http://arxiv.org/abs/2505.05190v1
- Date: Thu, 08 May 2025 12:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.877888
- Title: Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks
- Title(参考訳): 自己情報リライト攻撃によるテキスト透かしにおける弱さの発見
- Authors: Yixin Cheng, Hongcheng Guo, Yangming Li, Leonid Sigal,
- Abstract要約: テキスト透かしアルゴリズムは、テキストの品質を保証するために、ハイエントロピートークンに透かしを埋め込む。
本稿では,この外観上の不明瞭な設計が攻撃者によって悪用され,透かしの堅牢性に重大なリスクを及ぼすことを明らかにする。
本稿では,トークンの自己情報を計算することで,その脆弱性を利用する汎用的なパラフレーズ攻撃を提案する。
- 参考スコア(独自算出の注目度): 36.01146548147208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text watermarking aims to subtly embed statistical signals into text by controlling the Large Language Model (LLM)'s sampling process, enabling watermark detectors to verify that the output was generated by the specified model. The robustness of these watermarking algorithms has become a key factor in evaluating their effectiveness. Current text watermarking algorithms embed watermarks in high-entropy tokens to ensure text quality. In this paper, we reveal that this seemingly benign design can be exploited by attackers, posing a significant risk to the robustness of the watermark. We introduce a generic efficient paraphrasing attack, the Self-Information Rewrite Attack (SIRA), which leverages the vulnerability by calculating the self-information of each token to identify potential pattern tokens and perform targeted attack. Our work exposes a widely prevalent vulnerability in current watermarking algorithms. The experimental results show SIRA achieves nearly 100% attack success rates on seven recent watermarking methods with only 0.88 USD per million tokens cost. Our approach does not require any access to the watermark algorithms or the watermarked LLM and can seamlessly transfer to any LLM as the attack model, even mobile-level models. Our findings highlight the urgent need for more robust watermarking.
- Abstract(参考訳): テキスト透かしは,Large Language Model (LLM) のサンプリングプロセスを制御することで,統計的信号をテキストに微妙に埋め込むことを目的としている。
これらの透かしアルゴリズムの堅牢性は、それらの効果を評価する上で重要な要素となっている。
現在のテキスト透かしアルゴリズムは、テキストの品質を保証するために、ハイエントロピートークンに透かしを埋め込んでいる。
本稿では,この外観上の不明瞭な設計が攻撃者によって悪用され,透かしの堅牢性に重大なリスクを及ぼすことを明らかにする。
本稿では,トークンの自己情報を計算し,潜在的なパターントークンを識別し,標的となる攻撃を実行することで,その脆弱性を利用する汎用的な自己情報書き換え攻撃(Self-Information Rewrite Attack, SIRA)を提案する。
私たちの研究は、現在の透かしアルゴリズムで広く普及している脆弱性を明らかにします。
実験の結果、SIRAは最近の7つの透かし方式で攻撃成功率を100%近く達成し、トークン当たり0.88USDにしかならないことがわかった。
我々のアプローチでは、透かしアルゴリズムや透かし付きLLMへのアクセスは一切必要とせず、攻撃モデルとして、モバイルレベルモデルでさえも、シームレスにLLMに転送できる。
以上の結果から,より堅牢な透かしの必要性が浮かび上がっている。
関連論文リスト
- Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - Robustness of Watermarking on Text-to-Image Diffusion Models [9.277492743469235]
本稿では,透かし埋め込みとテキスト・ツー・イメージ・ジェネレーション処理を統合することで生成する透かしの堅牢性について検討する。
生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-04T13:59:09Z) - Watermark Smoothing Attacks against Language Models [40.02225709485305]
スムーシング・アタック(Smoothing Attack)は,新しい透かし除去法である。
我々は、13ドルBから30ドルBまで、オープンソースのモデルに対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-07-19T11:04:54Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Topic-Based Watermarks for Large Language Models [46.71493672772134]
本稿では,Large Language Model (LLM) 出力のための軽量なトピック誘導型透かし方式を提案する。
本手法は,Google の SynthID-Text など,業界をリードするシステムに匹敵する難易度を実現する。
論文 参考訳(メタデータ) (2024-04-02T17:49:40Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。