FuguReport

AliMark: Enhancing Robustness of Sentence-Level Watermarking Against Text Paraphrasing

著者 Yuexin Li, Wenjie Qu, Linyu Wu, Yulin Chen, Yufei He, Tri Cao, Bryan Hooi, Jiaheng Zhang
所属 National University of Singapore
カテゴリ Method / Watermarking / Sentence-level watermark embedding, Evaluation / Robustness Evaluation / Paraphrase attack resistance testing, Task / Text Integrity / Preservation under text paraphrasing
ライセンス CC BY 4.0

Abstractの概要

本論文は、既存の文レベルの電子透かしが、表層的なトークンではなく意味的な情報にシグナルをエンコードしているにもかかわらず、言い換えに対して依然として脆弱である理由を調査しています。プレフィックスベースの設計は、ある文の変更が後続の文の透かし検出を妨げる可能性があるため、文の分割や結合といった構造的な摂動に対して特に脆弱であると論じています。この問題に対処するため、著者らは生成時のビット配列エンコーディングと検出時の配列アライメントとして文レベルの透かしを再定義するAliMarkを提案しています。検出器は、代替の文セグメンテーションを生成する再構築器と、ブロックレベルの編集指標に基づく適応型ビット配列アライメントを組み合わせており、本手法はBooksumおよびC4データセット上で、複数の言い換え攻撃の条件下においてOPT-1.3BおよびQwen3-1.7Bを用いて評価されています。

新規性

主な新規性は、文レベルの電子透かしをプレフィックス条件付きの検出問題から、グローバルなビット配列のエンコーディングおよびアライメント問題へと再定義した点にあります。また、AliMarkは候補テキストの再構築と、ブロック編集率(Block Edit Rate)を用いた秘密ビット配列との適応型アライメントという2部構成の検出設計を導入し、文の結合、分割、挿入、および削除を明示的に処理します。

成果

BooksumおよびC4全体で、AliMarkは一貫して最高水準の検出性能を達成し、DIPPERやGPT-3.5などの強力な言い換えモデルにおいて最大の性能向上を示しました。例えば、Booksum上でOPT-1.3Bを用いた場合、他の文レベルのベースラインがTPR@5%で30.4%〜33.0%以下にとどまる中、AliMarkはDIPPER下で61.6%、GPT-3.5下で66.6%に達しました。さらに本論文は、透かしのない生成テキストと同等のパープレキシティ分布を維持しつつ、制御された挿入、削除、並べ替えの摂動に対してもより高い堅牢性を持つことを報告しています。

論文の注目点

  1. 本論文は、言い換えによる構造的な摂動(特に文の分割と結合)が、プレフィックスベースにおける文レベル水透かしの主要な失敗要因であると特定している。
  2. AliMarkは文ごとのビットブロックとして透かし情報を埋め込み、テキストの再構築と、秘密のビット配列に対する適応型のブロックレベル配列アライメントを用いてそれを検出する。
  3. 実証結果により、テキスト品質の低下をほとんど伴わずに、強力な言い換え攻撃や制御された構造的摂動の下で、提案手法が従来のベースラインよりも著しく高い堅牢性を持つことが示されている。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。