論文の概要: Blind PRNG Hijacking: An Undetectable Integrity-Preserving Attack Against LLM Watermarking
- arxiv url: http://arxiv.org/abs/2605.28632v1
- Date: Wed, 27 May 2026 15:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.182966
- Title: Blind PRNG Hijacking: An Undetectable Integrity-Preserving Attack Against LLM Watermarking
- Title(参考訳): ブラインドPRNGハイジャック:LLMウォーターマーキングに対する検出不能な統合性保護攻撃
- Authors: Ziyang You, Huilong He, Xiaoke Yang, Xuxing Lu,
- Abstract要約: この研究は、SedHijackを紹介します。これはLLMウォーターマーキングに対する最初のサプライチェーン攻撃で、同時に盲目です。
SeedHijackは生成されたテキストを摂動するのではなく、サプライチェーン層のPRNGを置き換えることで、出力トークンを変更したり、テキスト品質を劣化させたりすることなく、グリーンリストの選択をバイアスする。
量子乱数発生器(QRNG)対策は、良質な透かしユーティリティを保持しながら攻撃を完全に中和する。
- 参考スコア(独自算出の注目度): 0.6455316503462029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cryptographic watermarking is a leading defense for attributing text generated by large language models (LLMs). Existing schemes, including KGW, Unigram, and DipMark, derive their security guarantees from the assumption that the underlying pseudo-random number generator (PRNG) is trustworthy. This work introduces SeedHijack, the first supply-chain attack on LLM watermarking that is simultaneously (i) blind -- requiring no knowledge of the watermark key, detector, or model logits, (ii) integrity-preserving -- amplifying rather than erasing the watermark signal, and (iii) orthogonal to detection -- the attack-induced bias is statistically independent of all content-side detector statistics, ensuring that amplification and evasion coexist without trade-off. Rather than perturbing generated text, SeedHijack replaces the PRNG at the supply-chain layer, biasing green-list selection without altering output tokens or degrading text quality. Across three watermarking schemes and three open-source LLMs, the attack triggers 0/6 state-of-the-art content-side statistical detectors while inflating the watermark z-score up to 2.42x (system-level defenses such as entropy-source attestation remain orthogonal and complementary). A quantum random number generator (QRNG) countermeasure is shown to fully neutralize the attack while preserving benign watermarking utility. These findings establish PRNG integrity as a first-class security requirement for cryptographic content-provenance systems.
- Abstract(参考訳): 暗号透かし(英: Cryptographic watermarking)は、大言語モデル(LLM)が生成するテキストに寄与する主要な防御法である。
KGW、Unigram、DipMarkといった既存のスキームは、基礎となる擬似ランダム数生成器(PRNG)が信頼できるという仮定からセキュリティ保証を導き出している。
この研究はSeedHijackを紹介します。これは同時にLLMウォーターマーキングに対する最初のサプライチェーン攻撃です。
(i)盲目 -- 透かしキー、検出器、モデルロジットの知識を必要としない。
(ii)完全保存 -- 透かし信号の消去ではなく増幅
3) 検出に直交する -- 攻撃によって引き起こされるバイアスは、すべてのコンテンツ側検出器統計から統計的に独立しており、トレードオフのない増幅と回避共存を保証する。
SeedHijackは生成されたテキストを摂動するのではなく、サプライチェーン層のPRNGを置き換えることで、出力トークンを変更したり、テキスト品質を劣化させたりすることなく、グリーンリストの選択をバイアスする。
3つの透かしスキームと3つのオープンソースLCMの間で、攻撃は0/6の最先端のコンテント側統計検出器をトリガーし、透かしzスコアを2.42倍まで膨らませる(エントロピーソース検定のようなシステムレベルの防御は直交的かつ補完的である)。
量子乱数発生器(QRNG)対策は、良質な透かし機能を保ちながら攻撃を完全に中和する。
これらの結果から,PRNGの完全性は,暗号コンテンツ提供システムの第一級セキュリティ要件として確立された。
関連論文リスト
- An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - LLM Watermark Evasion via Bias Inversion [24.543675977310357]
本稿では,理論的動機付けとモデルに依存しないemphBias-Inversion Rewriting Attack (BIRA)を提案する。
BIRAは、下層の透かし方式を知らずに書き直し中に、おそらく透かしのトークンのロジットを抑えることで透かし信号を弱める。
論文 参考訳(メタデータ) (2025-09-27T00:24:57Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - NSmark: Null Space Based Black-box Watermarking Defense Framework for Language Models [24.544014337601286]
言語モデル(LM)は、保護を必要とする重要な知的財産権(IP)資産として登場した。
本稿では,Linear Functionality Equivalence Attack (LFEA) の攻撃シナリオを分析し,LMのブラックボックス設定に拡張する。
タスクに依存しない,LL-LFEA攻撃に抵抗可能なブラックボックス型透かし方式NSmarkを提案する。
論文 参考訳(メタデータ) (2024-10-16T14:45:27Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Watermarking Low-entropy Generation for Large Language Models: An Unbiased and Low-risk Method [6.505831742654826]
STA-1は、予想された元のトークン分布を保存する不偏の透かしである。
低エントロピーおよび高エントロピーデータセットの実験結果は、STA-1が上記の特性を同時に達成できることを証明している。
論文 参考訳(メタデータ) (2024-05-23T14:17:29Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。