Fugu-MT 論文翻訳(概要): SAMark: A Self-Anchored Text Watermarking with Paragraph-Level Paraphrase Robustness

論文の概要: SAMark: A Self-Anchored Text Watermarking with Paragraph-Level Paraphrase Robustness

arxiv url: http://arxiv.org/abs/2605.25796v1
Date: Mon, 25 May 2026 12:46:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:20.04873
Title: SAMark: A Self-Anchored Text Watermarking with Paragraph-Level Paraphrase Robustness
Title（参考訳）: SAMark: パラグラフレベルのパラフレーズロバストな自己認識型テキスト透かし
Authors: Jiahao Huo, Wenjie Qu, Yibo Yan, Kening Zheng, Jiaheng Zhang, Xuming Hu, Philip S. Yu, Mingxun Zhou,
Abstract要約: 段落レベルのパラフレーズに対するロバスト性は、このような攻撃が文順を変化させることで、世界規模で透かし信号を破壊するため、依然として困難である。本稿では,意味空間内にステップ非依存のグリーン領域を確立することで文順依存を除去する自己認識型透かしフレームワークSAMarkを提案する。実験の結果、SAMarkは通常の段落レベルのパラフレーズ攻撃で最大90.2%のTP@FP1%を達成することがわかった。
参考スコア（独自算出の注目度）: 71.08096624551246
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic-level watermarking (SWM) improves robustness against text modifications by treating sentences as the basic unit. However, robustness to paragraph-level paraphrasing remains difficult because such attacks globally disrupt watermark signals by changing sentence order. In this work, we propose SAMark, a self-anchored watermarking framework that removes the dependency on sentence order by establishing a step-independent green region in semantic space. To improve detectability, we introduce a multi-channel hyperbolic scoring mechanism that amplifies watermark signals while suppressing noise from weakly aligned candidates. We further propose a diversity-aware filtering strategy that combines hard filtering with soft regularization, extending beyond simple n-gram repetition filters to address semantic redundancy. Experimental results show that SAMark achieves up to 90.2% TP@FP1% under typical paragraph-level paraphrasing attacks, outperforming the strongest prior baseline by more than 30% on average, while maintaining generation quality competitive with unwatermarked text and breaking the robustness-quality trade-off that limits prior methods.
Abstract（参考訳）: セマンティックレベルの透かし(SWM)は、文を基本単位として扱うことにより、テキスト修正に対する堅牢性を向上させる。しかし, 段落レベルの言い回しに対する頑健性は, 文順を変化させることで, 世界的にウォーターマーク信号を破壊しているため, 依然として困難である。本研究では,意味空間内にステップ非依存のグリーン領域を確立することで,文順への依存を除去する自己認識型透かしフレームワークであるSAMarkを提案する。検出性を向上させるために,弱整列候補からの雑音を抑えつつ,透かし信号を増幅する多チャンネル双曲スコアリング機構を導入する。さらに, ハードフィルタとソフト正規化を組み合わせた多様性を考慮したフィルタリング手法を提案し, 意味的冗長性に対応するため, 単純なn-gram繰り返しフィルタを超えて拡張する。実験の結果、SAMarkは通常のパラフレーズ攻撃で最大90.2%のTP@FP1%を達成し、最強のベースラインを平均30%以上上回った。

論文の概要: SAMark: A Self-Anchored Text Watermarking with Paragraph-Level Paraphrase Robustness

関連論文リスト