論文の概要: Rethinking LLM Watermark Detection in Black-Box Settings: A Non-Intrusive Third-Party Framework
- arxiv url: http://arxiv.org/abs/2603.14968v1
- Date: Mon, 16 Mar 2026 08:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.80441
- Title: Rethinking LLM Watermark Detection in Black-Box Settings: A Non-Intrusive Third-Party Framework
- Title(参考訳): ブラックボックス設定におけるLCM透かし検出の再考:非侵入的第三者フレームワーク
- Authors: Zhuoshang Wang, Yubing Ren, Yanan Cao, Fang Fang, Xiaoxue Li, Li Guo,
- Abstract要約: TTP-Detectは、非侵襲的なサードパーティによる透かし検証のために設計された、先駆的なブラックボックスフレームワークである。
プロキシモデルを用いて、透かし関連信号を増幅し、補完的な相対的な測定を行い、透かし付き分布とクエリテキストのアライメントを評価する。
多様な攻撃に対して優れた検出性能と堅牢性を実現する。
- 参考スコア(独自算出の注目度): 16.430415006488865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While watermarking serves as a critical mechanism for LLM provenance, existing secret-key schemes tightly couple detection with injection, requiring access to keys or provider-side scheme-specific detectors for verification. This dependency creates a fundamental barrier for real-world governance, as independent auditing becomes impossible without compromising model security or relying on the opaque claims of service providers. To resolve this dilemma, we introduce TTP-Detect, a pioneering black-box framework designed for non-intrusive, third-party watermark verification. By decoupling detection from injection, TTP-Detect reframes verification as a relative hypothesis testing problem. It employs a proxy model to amplify watermark-relevant signals and a suite of complementary relative measurements to assess the alignment of the query text with watermarked distributions. Extensive experiments across representative watermarking schemes, datasets and models demonstrate that TTP-Detect achieves superior detection performance and robustness against diverse attacks.
- Abstract(参考訳): ウォーターマーキングはLSMの証明にとって重要なメカニズムであるが、既存のシークレットキースキームは射出による検出と密に結合し、鍵やプロバイダサイドのスキーム固有の検出器にアクセスする必要がある。
独立した監査は、モデルのセキュリティを損なうことなく、あるいはサービスプロバイダの不透明なクレームに頼ることなく、不可能になるからです。
このジレンマを解決するために,非侵襲的な第三者による透かし検証のために設計された,先駆的なブラックボックスフレームワークであるTP-Detectを導入する。
インジェクションから検出を分離することにより、TTP-Detectは相対仮説テスト問題として検証を再設定する。
プロキシモデルを用いて、透かし関連信号を増幅し、補完的な相対的な測定を行い、透かし付き分布とクエリテキストのアライメントを評価する。
代表的なウォーターマーキングスキーム、データセット、モデルにわたる大規模な実験により、TTP-Detectはより優れた検出性能と多様な攻撃に対する堅牢性を達成することが示された。
関連論文リスト
- From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications [11.371752627865929]
キーポイント検出は、ポーズ推定、視点回復、3D再構成など、多くの視覚タスクの基盤となる。
その重要性にもかかわらず、キーポイント検出器の形式的ロバスト性検証は、高次元入力と連続座標出力のためにほとんど探索されていない。
熱マップに基づくキーポイント検出のための最初の結合ロバスト性検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-05T19:01:53Z) - Online LLM watermark detection via e-processes [3.0870861759929977]
電子プロセスに基づく透かし検出のための統一的なフレームワークを開発する。
本稿では,検出能力を向上する実証的適応型電子プロセスを構築するための様々な手法を提案する。
いくつかの実験により,提案手法は既存の透かし検出法と比較して競争性能が高いことが示された。
論文 参考訳(メタデータ) (2026-02-15T19:37:06Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - SSCL-BW: Sample-Specific Clean-Label Backdoor Watermarking for Dataset Ownership Verification [8.045712223215542]
本稿では,サンプル特異的クリーンラベルバックドア透かし(SSCL-BW)を提案する。
U-Netベースの透かしサンプルジェネレータをトレーニングすることにより,サンプル毎に独自の透かしを生成する。
ベンチマークデータセットを用いた実験は,提案手法の有効性と潜在的な透かし除去攻撃に対する頑健性を示す。
論文 参考訳(メタデータ) (2025-10-30T12:13:53Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,3つの人気のある透かしスキームファミリーのパラメータを検出し,推定するための厳密な統計試験を開発した。
提案手法の有効性を,多種多様なオープンソースモデルを用いて実験的に検証した。
以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T08:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。