論文の概要: LLM Watermark Evasion via Bias Inversion
- arxiv url: http://arxiv.org/abs/2509.23019v2
- Date: Wed, 01 Oct 2025 15:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.797674
- Title: LLM Watermark Evasion via Bias Inversion
- Title(参考訳): バイアスインバージョンによるLLM透かしの伝播
- Authors: Jeongyeon Hwang, Sangdon Park, Jungseul Ok,
- Abstract要約: 本稿では,理論的動機付けとモデルに依存しないemphBias-Inversion Rewriting Attack (BIRA)を提案する。
BIRAは、下層の透かし方式を知らずに書き直し中に、おそらく透かしのトークンのロジットを抑えることで透かし信号を弱める。
- 参考スコア(独自算出の注目度): 24.543675977310357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the \emph{Bias-Inversion Rewriting Attack} (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)の透かしは、生成中に統計信号を埋め込んで、モデル生成テキストの検出を可能にする。
透かしは良質な設定で有効であることが証明されているが、敵の回避下での頑丈さはいまだに争われている。
このような脆弱性の厳密な理解と評価を進めるために,理論的には動機付けとモデルに依存しない「emph{Bias-Inversion Rewriting Attack} (BIRA)」を提案する。
BIRAは、LLMベースの書き換えの際に、透かしの可能性のあるトークンのロジットを抑えることで透かし信号を弱める。
近年の透かし手法全体では、BIRAはオリジナルテキストのセマンティックな内容を保持しながら、99\%以上の回避を実現している。
攻撃の実証以外にも,ストレステストや堅牢な防御の必要性を強調した,系統的な脆弱性を明らかにした。
関連論文リスト
- An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks [36.01146548147208]
テキスト透かしアルゴリズムは、テキストの品質を保証するために、ハイエントロピートークンに透かしを埋め込む。
本稿では,この外観上の不明瞭な設計が攻撃者によって悪用され,透かしの堅牢性に重大なリスクを及ぼすことを明らかにする。
本稿では,トークンの自己情報を計算することで,その脆弱性を利用する汎用的なパラフレーズ攻撃を提案する。
論文 参考訳(メタデータ) (2025-05-08T12:39:00Z) - Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。