論文の概要: Mitigating Watermark Forgery in Generative Models via Multi-Key Watermarking
- arxiv url: http://arxiv.org/abs/2507.07871v2
- Date: Sat, 02 Aug 2025 12:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.63049
- Title: Mitigating Watermark Forgery in Generative Models via Multi-Key Watermarking
- Title(参考訳): 多鍵透かしによる生成モデルにおける透かし偽造の軽減
- Authors: Toluwani Aremu, Noor Hussein, Munachiso Nwadike, Samuele Poppi, Jie Zhang, Karthik Nandakumar, Neil Gong, Nils Lukas,
- Abstract要約: GenAIプロバイダに対するセキュリティ上の脅威は、悪意のあるユーザがプロバイダの透かしを生成されたコンテンツに挿入するEmphforgery攻撃である。
偽造に抵抗する潜在的な防御の1つは、生成されたコンテンツを透かしに複数のキーを使用することである。
調査対象の全ての偽造攻撃に抵抗する改良されたマルチキー透かし法を提案する。
- 参考スコア(独自算出の注目度): 9.928222896746249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking offers a promising solution for GenAI providers to establish the provenance of their generated content. A watermark is a hidden signal embedded in the generated content, whose presence can later be verified using a secret watermarking key. A security threat to GenAI providers are \emph{forgery attacks}, where malicious users insert the provider's watermark into generated content that was \emph{not} produced by the provider's models, potentially damaging their reputation and undermining trust. One potential defense to resist forgery is using multiple keys to watermark generated content. However, it has been shown that forgery attacks remain successful when adversaries can collect sufficiently many watermarked samples. We propose an improved multi-key watermarking method that resists all surveyed forgery attacks and scales independently of the number of watermarked samples collected by the adversary. Our method accepts content as genuinely watermarked only if \emph{exactly} one watermark is detected. We focus on the image and text modalities, but our detection method is modality-agnostic, since it treats the underlying watermarking method as a black-box. We derive theoretical bounds on forgery-resistance and empirically validate them using Mistral-7B. Our results show a decrease in forgery success from up to $100\%$ using single-key baselines to only $2\%$. While our method resists all surveyed attacks, we find that highly capable, adaptive attackers can still achieve success rates of up to $65\%$ if watermarked content generated using different keys is easily separable.
- Abstract(参考訳): ウォーターマーキングは、生成したコンテンツの証明を確立するための、GenAIプロバイダに有望なソリューションを提供する。
透かしは生成されたコンテンツに埋め込まれた隠された信号であり、後に秘密の透かしキーを使ってその存在を確認できる。
GenAIプロバイダに対するセキュリティ上の脅威は、悪意のあるユーザがプロバイダの透かしを、プロバイダのモデルによって生成された‘emph{not}’生成コンテンツに挿入し、評判を損なう可能性があり、信頼を損なう、という、‘emph{forgery attack’である。
偽造に抵抗する潜在的な防御の1つは、生成されたコンテンツを透かしに複数のキーを使用することである。
しかし、敵が十分に多くの透かしサンプルを集めることができれば、偽造攻撃は成功し続けることが示されている。
敵が収集した透かしサンプルの数とは無関係に,全ての偽造攻撃に抵抗し,規模を拡大する改良されたマルチキー透かし法を提案する。
本手法は,1つの透かしが検出された場合にのみ,内容が真に透かしとして受け入れられる。
画像とテキストのモダリティに焦点をあてるが,本検出法はブラックボックスとして根底にある透かし法を扱い,モダリティに依存しない。
フォージェリ抵抗の理論的境界を導出し,Mistral-7Bを用いて実証的に検証した。
以上の結果から, 単一キーベースラインを使用した偽造成功率は最大100\%から, わずか2\%に減少した。
本手法は全ての攻撃に対して抵抗するが,異なるキーを用いて生成された透かしを分離し易い場合,高い能率,適応攻撃者は最大6,5\%の成功率を達成できることがわかった。
関連論文リスト
- WMCopier: Forging Invisible Image Watermarks on Arbitrary Images [21.17890218813236]
目的の透かしアルゴリズムの事前知識やアクセスを必要とせず,有効な透かし偽造攻撃であるWMCopierを提案する。
提案手法はまず,無条件拡散モデルを用いて対象の透かし分布をモデル化し,次いで,対象の透かしを非透かし画像にシームレスに埋め込む。
実験の結果、WMCopierはオープンソースとクローズドソースの両方の透かしシステムを効果的に騙していることがわかった。
論文 参考訳(メタデータ) (2025-03-28T11:11:19Z) - SEAL: Semantic Aware Image Watermarking [26.606008778795193]
本稿では,生成した画像のセマンティック情報を透かしに直接埋め込む新しい透かし手法を提案する。
キーパターンは、局所性に敏感なハッシュを用いて画像のセマンティック埋め込みから推測することができる。
以上の結果から,画像生成モデルによるリスクを軽減できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-03-15T15:29:05Z) - Let Watermarks Speak: A Robust and Unforgeable Watermark for Language Models [0.0]
検出不能で頑健な単一ビット透かし方式を提案する。
最上級のゼロビット透かし方式に匹敵する堅牢性を持つ。
論文 参考訳(メタデータ) (2024-12-27T11:58:05Z) - RoboSignature: Robust Signature and Watermarking on Network Attacks [0.5461938536945723]
本稿では,モデルが意図した透かしを埋め込む能力を阻害する新たな逆調整攻撃を提案する。
本研究は, 発生システムにおける潜在的な脆弱性を予知し, 防御することの重要性を強調した。
論文 参考訳(メタデータ) (2024-12-22T04:36:27Z) - Robust and Minimally Invasive Watermarking for EaaS [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。
編集はモデル抽出攻撃に対して脆弱であり、著作権保護の必要性を強調している。
そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T04:34:49Z) - An Undetectable Watermark for Generative Image Models [65.31658824274894]
生成画像モデルに対する検出不能な最初の透かし方式を提案する。
特に、検出不能な透かしは、効率的に計算可能なメートル法で画質を劣化させることはない。
提案手法は,擬似乱数誤り訂正符号を用いて拡散モデルの初期潜時間を選択する。
論文 参考訳(メタデータ) (2024-10-09T18:33:06Z) - Watermark Smoothing Attacks against Language Models [40.02225709485305]
スムーシング・アタック(Smoothing Attack)は,新しい透かし除去法である。
我々は、13ドルBから30ドルBまで、オープンソースのモデルに対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-07-19T11:04:54Z) - Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。
ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。
本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文 参考訳(メタデータ) (2024-07-04T17:56:04Z) - Steganalysis on Digital Watermarking: Is Your Defense Truly Impervious? [21.06493827123594]
ステガナリシス攻撃は 最小限の知覚歪みで 透かしを抽出し除去できる
平均的な透かし画像の集合は、その下にある透かしパターンを明らかにすることができる。
本稿では,コンテンツ適応型透かし戦略とステガナリシスに対するセキュリティ評価を実施するためのセキュリティガイドラインを提案する。
論文 参考訳(メタデータ) (2024-06-13T12:01:28Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Invisible Image Watermarks Are Provably Removable Using Generative AI [47.25747266531665]
Invisibleの透かしは、所有者によってのみ検出可能な隠されたメッセージを埋め込むことで、画像の著作権を保護する。
我々は、これらの見えない透かしを取り除くために、再生攻撃のファミリーを提案する。
提案手法は,まず画像にランダムノイズを加えて透かしを破壊し,画像を再構成する。
論文 参考訳(メタデータ) (2023-06-02T23:29:28Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。