論文の概要: Sandcastles in the Storm: Revisiting the (Im)possibility of Strong Watermarking
- arxiv url: http://arxiv.org/abs/2505.06827v1
- Date: Sun, 11 May 2025 03:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.059124
- Title: Sandcastles in the Storm: Revisiting the (Im)possibility of Strong Watermarking
- Title(参考訳): 嵐の砂の城--強い透かしの可能性を再考する
- Authors: Fabrice Y Harel-Canada, Boran Erol, Connor Choi, Jason Liu, Gary Jiarui Song, Nanyun Peng, Amit Sahai,
- Abstract要約: 最近の理論的研究は、あらゆる透かしは、品質を保ちながらテキストを乱すランダムウォークアタックによって消去できると主張している。
摂動テキストの100%は、数百回の編集の後、その起源の痕跡を保持し、急速に混合する。
自動歩行は26%の時間で透かしを除去し、人間の品質レビューでは10%に低下した。
- 参考スコア(独自算出の注目度): 44.002924243134686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking AI-generated text is critical for combating misuse. Yet recent theoretical work argues that any watermark can be erased via random walk attacks that perturb text while preserving quality. However, such attacks rely on two key assumptions: (1) rapid mixing (watermarks dissolve quickly under perturbations) and (2) reliable quality preservation (automated quality oracles perfectly guide edits). Through large-scale experiments and human-validated assessments, we find mixing is slow: 100% of perturbed texts retain traces of their origin after hundreds of edits, defying rapid mixing. Oracles falter, as state-of-the-art quality detectors misjudge edits (77% accuracy), compounding errors during attacks. Ultimately, attacks underperform: automated walks remove watermarks just 26% of the time -- dropping to 10% under human quality review. These findings challenge the inevitability of watermark removal. Instead, practical barriers -- slow mixing and imperfect quality control -- reveal watermarking to be far more robust than theoretical models suggest. The gap between idealized attacks and real-world feasibility underscores the need for stronger watermarking methods and more realistic attack models.
- Abstract(参考訳): ウォーターマークAI生成テキストは、誤用に対処するために重要である。
しかし、最近の理論的研究は、あらゆる透かしは、品質を保ちながらテキストを乱すランダムウォークアタックによって消去できると主張している。
しかし,このような攻撃は,(1)急激な混合(透かし)と(2)信頼性の高い品質維持(自動品質オラクルの完全ガイド)という2つの重要な前提に依存している。
乱れたテキストの100%は、数百回の編集の後、その起源の痕跡を保持し、高速な混合を防ぎます。
Oracleは、最先端の品質検出ツールとして、不正な修正(77%の精度)を行い、攻撃時にエラーを混同している。
究極的には、自動歩行によるウォーターマークの除去は26%に過ぎず、人間の品質レビューでは10%に低下している。これらの発見は、透かし除去の必然性に挑戦する。代わりに、実用上の障壁 -- 緩やかな混合と不完全な品質管理 -- は、理論的モデルが示唆しているよりもはるかに堅牢であることを示す。
理想的な攻撃と現実の実現可能性のギャップは、より強力な透かし法とより現実的な攻撃モデルの必要性を浮き彫りにする。
関連論文リスト
- Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks [36.01146548147208]
テキスト透かしアルゴリズムは、テキストの品質を保証するために、ハイエントロピートークンに透かしを埋め込む。
本稿では,この外観上の不明瞭な設計が攻撃者によって悪用され,透かしの堅牢性に重大なリスクを及ぼすことを明らかにする。
本稿では,トークンの自己情報を計算することで,その脆弱性を利用する汎用的なパラフレーズ攻撃を提案する。
論文 参考訳(メタデータ) (2025-05-08T12:39:00Z) - Watermark Smoothing Attacks against Language Models [40.02225709485305]
スムーシング・アタック(Smoothing Attack)は,新しい透かし除去法である。
我々は、13ドルBから30ドルBまで、オープンソースのモデルに対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-07-19T11:04:54Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - WAVES: Benchmarking the Robustness of Image Watermarks [67.955140223443]
WAVES(Watermark Analysis Via Enhanced Stress-testing)は、画像透かしの堅牢性を評価するためのベンチマークである。
我々は,検出タスクと識別タスクを統合し,多様なストレステストからなる標準化された評価プロトコルを確立する。
我々はWAVESを,ロバストな透かしの将来の開発のためのツールキットとして想定する。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。