論文の概要: Watermark Smoothing Attacks against Language Models
- arxiv url: http://arxiv.org/abs/2407.14206v1
- Date: Fri, 19 Jul 2024 11:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 17:54:18.914583
- Title: Watermark Smoothing Attacks against Language Models
- Title(参考訳): 言語モデルに対する透かしの平滑化攻撃
- Authors: Hongyan Chang, Hamed Hassani, Reza Shokri,
- Abstract要約: 我々はスムースな攻撃を導入し、既存の透かし手法がテキストの小さな修正に対して堅牢でないことを示す。
我々の攻撃は幅広い透かし技術の基本的限界を明らかにしている。
- 参考スコア(独自算出の注目度): 40.02225709485305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking is a technique used to embed a hidden signal in the probability distribution of text generated by large language models (LLMs), enabling attribution of the text to the originating model. We introduce smoothing attacks and show that existing watermarking methods are not robust against minor modifications of text. An adversary can use weaker language models to smooth out the distribution perturbations caused by watermarks without significantly compromising the quality of the generated text. The modified text resulting from the smoothing attack remains close to the distribution of text that the original model (without watermark) would have produced. Our attack reveals a fundamental limitation of a wide range of watermarking techniques.
- Abstract(参考訳): ウォーターマーキング(英: Watermarking)とは、大きな言語モデル(LLM)が生成するテキストの確率分布に隠れた信号を埋め込む手法である。
我々はスムースな攻撃を導入し、既存の透かし手法がテキストの小さな修正に対して堅牢でないことを示す。
敵対者は、より弱い言語モデルを用いて、生成されたテキストの品質を著しく損なうことなく、透かしによって引き起こされる分散摂動を円滑にすることができる。
スムーズな攻撃による修正されたテキストは、元のモデル(透かしを含まない)が生成したであろうテキストの分布に近いままである。
我々の攻撃は幅広い透かし技術の基本的限界を明らかにしている。
関連論文リスト
- Let Watermarks Speak: A Robust and Unforgeable Watermark for Language Models [0.0]
検出不能で頑健な単一ビット透かし方式を提案する。
最上級のゼロビット透かし方式に匹敵する堅牢性を持つ。
論文 参考訳(メタデータ) (2024-12-27T11:58:05Z) - Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。
ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。
本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文 参考訳(メタデータ) (2024-07-04T17:56:04Z) - Latent Watermark: Inject and Detect Watermarks in Latent Diffusion Space [7.082806239644562]
既存の手法は、画質と透かしの堅牢性のジレンマに直面している。
画像品質の優れた透かしは通常、ぼやけやJPEG圧縮のような攻撃に対して弱い堅牢性を持つ。
本稿では,潜伏拡散空間内の透かしを注入し,検出する潜伏透かしを提案する。
論文 参考訳(メタデータ) (2024-03-30T03:19:50Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Invisible Image Watermarks Are Provably Removable Using Generative AI [47.25747266531665]
Invisibleの透かしは、所有者によってのみ検出可能な隠されたメッセージを埋め込むことで、画像の著作権を保護する。
我々は、これらの見えない透かしを取り除くために、再生攻撃のファミリーを提案する。
提案手法は,まず画像にランダムノイズを加えて透かしを破壊し,画像を再構成する。
論文 参考訳(メタデータ) (2023-06-02T23:29:28Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。