論文の概要: Defending LLM Watermarking Against Spoofing Attacks with Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2504.06575v1
- Date: Wed, 09 Apr 2025 04:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:58.532869
- Title: Defending LLM Watermarking Against Spoofing Attacks with Contrastive Representation Learning
- Title(参考訳): コントラスト表現学習によるスポーフィング攻撃に対するLLMウォーターマーキングの防御
- Authors: Li An, Yujian Liu, Yepeng Liu, Yang Zhang, Yuheng Bu, Shiyu Chang,
- Abstract要約: ピギーバック攻撃は、元々の透かしを保ったままのヘイトスピーチに変換する透かしテキストの意味を悪意的に変更することができる。
そこで本稿では,元来の意味を保ちつつ,与えられた目標テキストに透かしを埋め込む意味認識型透かしアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 34.76886510334969
- License:
- Abstract: Watermarking has emerged as a promising technique for detecting texts generated by LLMs. Current research has primarily focused on three design criteria: high quality of the watermarked text, high detectability, and robustness against removal attack. However, the security against spoofing attacks remains relatively understudied. For example, a piggyback attack can maliciously alter the meaning of watermarked text-transforming it into hate speech-while preserving the original watermark, thereby damaging the reputation of the LLM provider. We identify two core challenges that make defending against spoofing difficult: (1) the need for watermarks to be both sensitive to semantic-distorting changes and insensitive to semantic-preserving edits, and (2) the contradiction between the need to detect global semantic shifts and the local, auto-regressive nature of most watermarking schemes. To address these challenges, we propose a semantic-aware watermarking algorithm that post-hoc embeds watermarks into a given target text while preserving its original meaning. Our method introduces a semantic mapping model, which guides the generation of a green-red token list, contrastively trained to be sensitive to semantic-distorting changes and insensitive to semantic-preserving changes. Experiments on two standard benchmarks demonstrate strong robustness against removal attacks and security against spoofing attacks, including sentiment reversal and toxic content insertion, while maintaining high watermark detectability. Our approach offers a significant step toward more secure and semantically aware watermarking for LLMs. Our code is available at https://github.com/UCSB-NLP-Chang/contrastive-watermark.
- Abstract(参考訳): 透かしはLLMが生成したテキストを検出するための有望な手法として登場した。
現在の研究は、透かしのあるテキストの品質、高い検出性、除去攻撃に対する堅牢性という3つの設計基準に重点を置いている。
しかし、スプーフィング攻撃に対するセキュリティは、いまだに十分に検討されていない。
例えば、ピギーバック攻撃は、元々の透かしを保ったままのヘイトスピーチに変換する透かしテキストの意味を悪意的に変更し、LCMプロバイダの評判を損なう可能性がある。
1)意味的歪曲変化に敏感な透かしと,意味的保存編集に敏感な透かしの必要性,(2)グローバルな意味的変化を検出する必要性と,ほとんどの透かしスキームの局所的・自己回帰的性質との間には矛盾がある。
これらの課題に対処するため,本研究では,その本来の意味を保ちつつ,与えられた目標テキストに透かしを埋め込む意味認識型透かしアルゴリズムを提案する。
本手法では,グリーンレッドトークンリストの生成を誘導するセマンティックマッピングモデルを導入し,セマンティックな変化に敏感で,セマンティックな変化に敏感で,セマンティックな変化に敏感に訓練する。
2つの標準ベンチマークの実験は、高い透かし検出性を維持しながら、感情の逆転や有害な内容の挿入を含む、除去攻撃や密封攻撃に対する強力な堅牢性を示す。
我々のアプローチは、LLMに対してよりセキュアでセマンティックに認識された透かしを実現するための重要なステップを提供する。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/contrastive-watermarkで公開されています。
関連論文リスト
- Modification and Generated-Text Detection: Achieving Dual Detection Capabilities for the Outputs of LLM by Watermark [6.355836060419373]
1つの実用的な解決策は、透かしをテキストに埋め込むことで、透かし抽出によるオーナシップの検証を可能にする。
既存の手法は主に修正攻撃に対する防御に重点を置いており、しばしば他の偽造攻撃を無視している。
本研究では, 修正に敏感な不偏形透かしに対して, テキスト中の修正を検出する手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T11:56:40Z) - Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models [16.57738116313139]
攻撃者は、異なる潜在空間やアーキテクチャであっても、無関係なモデルを利用して、強力で現実的な偽造攻撃を行うことができることを示す。
第1は、対象の透かしを実画像に印字し、無関係のLCMにおいて任意の画像の潜在表現を操作する。
第2の攻撃は、透かし画像を反転させて任意のプロンプトで再生することにより、目標の透かしで新たな画像を生成する。
論文 参考訳(メタデータ) (2024-12-04T12:57:17Z) - ESpeW: Robust Copyright Protection for LLM-based EaaS via Embedding-Specific Watermark [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。
編集はモデル抽出攻撃に対して脆弱であり、著作権保護の緊急の必要性を強調している。
そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T04:34:49Z) - On Evaluating The Performance of Watermarked Machine-Generated Texts Under Adversarial Attacks [20.972194348901958]
まず、メインストリームのウォーターマーキングスキームと、機械生成テキストに対する削除攻撃を組み合わせます。
8つの透かし(5つのプレテキスト、3つのポストテキスト)と12のアタック(2つのプレテキスト、10のポストテキスト)を87のシナリオで評価した。
その結果、KGWとExponentialの透かしは高いテキスト品質と透かしの保持を提供するが、ほとんどの攻撃に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2024-07-05T18:09:06Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-06T03:33:42Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。