論文の概要: Watermarking Should Be Treated as a Monitoring Primitive
- arxiv url: http://arxiv.org/abs/2605.13095v2
- Date: Thu, 14 May 2026 13:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.915173
- Title: Watermarking Should Be Treated as a Monitoring Primitive
- Title(参考訳): 透かしは監視プリミティブとして扱われるべきである
- Authors: Toluwani Aremu, Nils Lukas, Jie Zhang,
- Abstract要約: ウォーターマーキングは、生成モデルにおける証明、帰属、安全監視のために広く提案されている。
我々は、透かしは監視プリミティブとして扱われるべきであり、内部監視は、属性ごとの属性キーとメッセージによって避けられないと論じる。
本稿では,観測者が出力全体にわたって透かし信号を集約してエンティティレベルの情報を推測する,オブザーバベースの脅威モデルを提案する。
- 参考スコア(独自算出の注目度): 11.478678976944124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking is widely proposed for provenance, attribution, and safety monitoring in generative models, yet is typically evaluated only under adversaries who attempt to evade detection or induce false positives at the level of individual samples. We argue that watermarking should be treated as a monitoring primitive, and that internal monitoring is unavoidable given per-entity attribution keys and messages, as well as detector access. We introduce an observer-based threat model in which observers can aggregate watermark signals across outputs to infer entity-level information, showing that even zero-bit watermarking enables attribution under multi-key settings. We further show that external monitoring can emerge over time from persistent, key-dependent statistical structure, although this depends on watermark design and may be mitigated by distribution-preserving or undetectable schemes. Our findings reveal a fundamental dual-use tension between attribution and monitoring, motivating evaluation of watermarking beyond per-sample robustness to account for aggregation and observer-based capabilities.
- Abstract(参考訳): ウォーターマーキングは、生成モデルにおける証明、帰属、安全監視のために広く提案されているが、通常、個々のサンプルのレベルで検出や偽陽性を誘発しようとする敵にのみ評価される。
我々は、透かしは監視プリミティブとして扱われるべきであり、内部監視は、検知アクセスと同様に、属性ごとの属性キーとメッセージによって避けられないと論じている。
観測者が出力をまたいで透かし信号を集約してエンティティレベルの情報を推測できるオブザーバベースの脅威モデルを導入し、ゼロビットの透かしでもマルチキー設定下での帰属が可能であることを示す。
さらに,これは透かし設計に依存しており,分布保存や検出不能なスキームによって緩和される可能性があるものの,持続的かつキー依存的な統計構造から外部監視が時間とともに現れることを示す。
以上の結果から,アトリビューションとモニタリングの両面的な緊張関係が明らかとなり,アグリゲーションとオブザーバベース機能を考慮した透かし評価のモチベーションが得られた。
関連論文リスト
- SAiW: Source-Attributable Invisible Watermarking for Proactive Deepfake Defense [7.442956390854273]
現代の生成モデルによって生成されたディープフェイクは、情報の完全性、デジタルアイデンティティ、および公的な信頼に深刻な脅威をもたらす。
本稿では,プロアクティブなディープフェイクディフェンスとメディアプロファイランス検証のための,ソースAttributed Invisible Watermarking FrameworkであるSAiWを紹介する。
論文 参考訳(メタデータ) (2026-03-24T13:26:52Z) - Rethinking LLM Watermark Detection in Black-Box Settings: A Non-Intrusive Third-Party Framework [16.430415006488865]
TTP-Detectは、非侵襲的なサードパーティによる透かし検証のために設計された、先駆的なブラックボックスフレームワークである。
プロキシモデルを用いて、透かし関連信号を増幅し、補完的な相対的な測定を行い、透かし付き分布とクエリテキストのアライメントを評価する。
多様な攻撃に対して優れた検出性能と堅牢性を実現する。
論文 参考訳(メタデータ) (2026-03-16T08:28:48Z) - DeceptGuard :A Constitutional Oversight Framework For Detecting Deception in LLM Agents [0.0]
3つの監視体制を体系的に比較する統合フレームワークであるDECEPTGUARDを紹介する。
提案するDECEPTSYNTHは,偽陽性および偽陰性なエージェントトラジェクトリを生成する,スケーラブルな合成パイプラインである。
モニタは4,800個の合成軌道に最適化され、DeceptArenaの9,200個のホールドアウトサンプルで評価された。
論文 参考訳(メタデータ) (2026-03-14T06:45:43Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - Watermarking Recommender Systems [52.207721219147814]
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-Distribution Watermarking (AOW)を紹介する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
論文 参考訳(メタデータ) (2024-07-17T06:51:24Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。