論文の概要: RLSpoofer: A Lightweight Evaluator for LLM Watermark Spoofing Resilience
- arxiv url: http://arxiv.org/abs/2604.11546v1
- Date: Mon, 13 Apr 2026 14:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.613635
- Title: RLSpoofer: A Lightweight Evaluator for LLM Watermark Spoofing Resilience
- Title(参考訳): RLSpoofer: LLM透かしレジリエンスのための軽量評価器
- Authors: Hanbo Huang, Xuan Gong, Yiran Zhang, Hao Zheng, Shiyu Liang,
- Abstract要約: 大規模言語モデル(LLM)による透かしは、AI生成テキストの検出と帰属のための有望なアプローチとして登場した。
本研究では,スプーフィングに対する透かしのレジリエンスについて,分布の観点から検討した。
RLSpooferは強化学習に基づくブラックボックス・スプーフィング攻撃であり,100対のヒトウォーターマーク付きパラフレーズトレーニングペアと,透かし内部や検出器へのアクセスをゼロにする。
- 参考スコア(独自算出の注目度): 14.900124113524194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) watermarking has emerged as a promising approach for detecting and attributing AI-generated text, yet its robustness to black-box spoofing remains insufficiently evaluated. Existing evaluation methods often demand extensive datasets and white-box access to algorithmic internals, limiting their practical applicability. In this paper, we study watermark resilience against spoofing fundamentally from a distributional perspective. We first establish a \textit{local capacity bottleneck}, which theoretically characterizes the probability mass that can be reallocated under KL-bounded local updates while preserving semantic fidelity. Building on this, we propose RLSpoofer, a reinforcement learning-based black-box spoofing attack that requires only 100 human-watermarked paraphrase training pairs and zero access to the watermarking internals or detectors. Despite weak supervision, it empowers a 4B model to achieve a 62.0\% spoof success rate with minimal semantic shift on PF-marked texts, dwarfing the 6\% of baseline models trained on up to 10,000 samples. Our findings expose the fragile spoofing resistance of current LLM watermarking paradigms, providing a lightweight evaluation framework and stressing the urgent need for more robust schemes.
- Abstract(参考訳): 大規模言語モデル(LLM)による透かしは、AI生成テキストの検出と帰属のための有望なアプローチとして登場したが、ブラックボックススプーフィングに対する堅牢性はまだ不十分である。
既存の評価手法では、広範囲なデータセットとアルゴリズム内部へのホワイトボックスアクセスが要求されることが多く、実用性に制限がある。
本稿では,スプーフィングに対する透かしのレジリエンスを分布的観点から検討する。
まず、KL境界の局所的な更新の下で、意味的忠実性を維持しながら再配置できる確率質量を理論的に特徴づける「textit{local capacity bottleneck}」を確立する。
そこで本研究では,強化学習に基づくブラックボックススプーフィング攻撃であるRSpooferを提案する。
監督が弱いにもかかわらず、4BモデルにPFマーク付きテキストに対するセマンティックシフトが最小限で62.0\%の成功率を達成する権限を与え、最大10,000のサンプルでトレーニングされたベースラインモデルの6\%を軽視する。
本研究は,LLMウォーターマーキングパラダイムの脆弱なスプーフィング抵抗を明らかにするとともに,軽量な評価フレームワークを提供し,より堅牢なスキームの必要性を強調した。
関連論文リスト
- An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - LLM Watermark Evasion via Bias Inversion [24.543675977310357]
本稿では,理論的動機付けとモデルに依存しないemphBias-Inversion Rewriting Attack (BIRA)を提案する。
BIRAは、下層の透かし方式を知らずに書き直し中に、おそらく透かしのトークンのロジットを抑えることで透かし信号を弱める。
論文 参考訳(メタデータ) (2025-09-27T00:24:57Z) - RLCracker: Exposing the Vulnerability of LLM Watermarks with Adaptive RL Attacks [18.75982610851903]
適応的強靭性半径(Adaptive robustness radius)は、適応的敵に対する透かし抵抗性を定量化する公式な計量である。
RLCrackerは強化学習(RL)に基づく適応攻撃であり,意味的忠実さを維持しながら透かしを消去する。
その結果、適応攻撃は広範囲に効果があり、現在のウォーターマーク防御に根本的な脅威をもたらすことが確認された。
論文 参考訳(メタデータ) (2025-09-25T09:08:02Z) - Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。