論文の概要: Discovering Clues of Spoofed LM Watermarks
- arxiv url: http://arxiv.org/abs/2410.02693v1
- Date: Thu, 3 Oct 2024 17:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 01:32:59.527485
- Title: Discovering Clues of Spoofed LM Watermarks
- Title(参考訳): スプーン式LM透かしのクローズ
- Authors: Thibaud Gloaguen, Nikola Jovanović, Robin Staab, Martin Vechev,
- Abstract要約: 実際の透かしと偽りの透かしのテキストの間には、観測可能な相違があることが示される。
このようなアーティファクトの存在を確実に明らかにする厳密な統計テストを提案する。
- 参考スコア(独自算出の注目度): 1.9374282535132377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM watermarks stand out as a promising way to attribute ownership of LLM-generated text. One threat to watermark credibility comes from spoofing attacks, where an unauthorized third party forges the watermark, enabling it to falsely attribute arbitrary texts to a particular LLM. While recent works have demonstrated that state-of-the-art schemes are in fact vulnerable to spoofing, they lack deeper qualitative analysis of the texts produced by spoofing methods. In this work, we for the first time reveal that there are observable differences between genuine and spoofed watermark texts. Namely, we show that regardless of their underlying approach, all current spoofing methods consistently leave observable artifacts in spoofed texts, indicative of watermark forgery. We build upon these findings to propose rigorous statistical tests that reliably reveal the presence of such artifacts, effectively discovering that a watermark was spoofed. Our experimental evaluation shows high test power across all current spoofing methods, providing insights into their fundamental limitations, and suggesting a way to mitigate this threat.
- Abstract(参考訳): LLM の透かしは LLM 生成したテキストの所有権を付与する有望な方法である。
透かしの信頼性に対する1つの脅威は、不正な第三者が透かしを偽造し、任意のテキストを特定のLCMに誤って属性付ける攻撃である。
最近の研究は、最先端のスキームがスプーフィングに弱いことを実証しているが、スプーフィング法によって生成されたテキストのより深い質的な分析は欠如している。
本研究では,本研究において,真偽と偽造の透かしテキストの可観測的差異を初めて明らかにした。
すなわち,現行のスプーフィング手法は,その基本的なアプローチにかかわらず,常に観察可能なアーティファクトをスプーフィングテキストに残し,ウォーターマークの偽造を示唆していることを示す。
これらの知見に基づいて,これらのアーティファクトの存在を確実に明らかにする厳密な統計検査を提案し,透かしがスプーフされたことを効果的に発見する。
実験による評価は、現在のスプーフィング手法のすべてにわたって高いテストパワーを示し、その基本的な限界について洞察を与え、この脅威を軽減する方法を提案する。
関連論文リスト
- Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。
我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。
実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文 参考訳(メタデータ) (2024-10-04T06:01:27Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - On Evaluating The Performance of Watermarked Machine-Generated Texts Under Adversarial Attacks [20.972194348901958]
まず、メインストリームのウォーターマーキングスキームと、機械生成テキストに対する削除攻撃を組み合わせます。
8つの透かし(5つのプレテキスト、3つのポストテキスト)と12のアタック(2つのプレテキスト、10のポストテキスト)を87のシナリオで評価した。
その結果、KGWとExponentialの透かしは高いテキスト品質と透かしの保持を提供するが、ほとんどの攻撃に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2024-07-05T18:09:06Z) - Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature [39.973130114073605]
整合性チェックのための微細なシグネチャビットを埋め込んだバイレベルシグネチャスキームであるBileveを導入する。
Bileveは、検出中に5つのシナリオを区別し、テキストを確実にトレースし、LLMを制御する。
論文 参考訳(メタデータ) (2024-06-04T03:58:14Z) - Watermark Stealing in Large Language Models [2.1165011830664673]
本研究では,透かし付きLLMのAPIをほぼリバースエンジニアリングにクエリすることで,実用的なスプーフィング攻撃を可能にすることを示す。
私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
論文 参考訳(メタデータ) (2024-02-29T17:12:39Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。