論文の概要: Large Language Model Watermark Stealing With Mixed Integer Programming
- arxiv url: http://arxiv.org/abs/2405.19677v1
- Date: Thu, 30 May 2024 04:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:16:37.116002
- Title: Large Language Model Watermark Stealing With Mixed Integer Programming
- Title(参考訳): 混合整数プログラミングによる大規模言語モデルウォーターマークステアリング
- Authors: Zhaoxi Zhang, Xiaomei Zhang, Yanjun Zhang, Leo Yu Zhang, Chao Chen, Shengshan Hu, Asif Gill, Shirui Pan,
- Abstract要約: 大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
- 参考スコア(独自算出の注目度): 51.336009662771396
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Large Language Model (LLM) watermark is a newly emerging technique that shows promise in addressing concerns surrounding LLM copyright, monitoring AI-generated text, and preventing its misuse. The LLM watermark scheme commonly includes generating secret keys to partition the vocabulary into green and red lists, applying a perturbation to the logits of tokens in the green list to increase their sampling likelihood, thus facilitating watermark detection to identify AI-generated text if the proportion of green tokens exceeds a threshold. However, recent research indicates that watermarking methods using numerous keys are susceptible to removal attacks, such as token editing, synonym substitution, and paraphrasing, with robustness declining as the number of keys increases. Therefore, the state-of-the-art watermark schemes that employ fewer or single keys have been demonstrated to be more robust against text editing and paraphrasing. In this paper, we propose a novel green list stealing attack against the state-of-the-art LLM watermark scheme and systematically examine its vulnerability to this attack. We formalize the attack as a mixed integer programming problem with constraints. We evaluate our attack under a comprehensive threat model, including an extreme scenario where the attacker has no prior knowledge, lacks access to the watermark detector API, and possesses no information about the LLM's parameter settings or watermark injection/detection scheme. Extensive experiments on LLMs, such as OPT and LLaMA, demonstrate that our attack can successfully steal the green list and remove the watermark across all settings.
- Abstract(参考訳): 大規模言語モデル(LLM)の透かしは、LLM著作権に関する懸念に対処し、AI生成したテキストを監視し、その誤用を防ぐという、新たな技術である。
LLM透かしスキームは一般的に、語彙を緑と赤のリストに分割する秘密鍵を生成し、グリーンリストのトークンのロジットに摂動を適用してサンプリング可能性を高めることで、グリーントークンの割合がしきい値を超えた場合にAI生成テキストを識別する透かし検出を容易にする。
しかし,近年の研究では,多数のキーを用いた透かし手法は,トークン編集や同義語置換,パラフレージングなどの攻撃の影響を受けやすく,キー数の増加とともにロバスト性は低下している。
したがって、より少ないまたは単一のキーを使用する最先端の透かしスキームは、テキスト編集やパラフレージングに対してより堅牢であることが示されている。
本稿では,最先端のLLM透かしシステムに対する新たなグリーンリスト盗難攻撃を提案し,その脆弱性を系統的に検証する。
我々は、制約付き混合整数プログラミング問題として攻撃を形式化する。
我々は,攻撃者が事前の知識を持っていない,透かし検出APIにアクセスできない,LCMのパラメータ設定や透かし注入・検出方式に関する情報を持たない,極端なシナリオを含む包括的脅威モデルの下で攻撃を評価した。
OPT や LLaMA のような LLM に関する大規模な実験は、我々の攻撃がグリーンリストを盗み、すべての設定で透かしを除去できることを示した。
関連論文リスト
- Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。
我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。
実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文 参考訳(メタデータ) (2024-10-04T06:01:27Z) - Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Topic-Based Watermarks for LLM-Generated Text [46.71493672772134]
本稿では,大規模言語モデル(LLM)のためのトピックベースの新しい透かしアルゴリズムを提案する。
トピック固有のトークンバイアスを使用することで、生成されたテキストにトピック依存の透かしを埋め込む。
提案手法は,テキストトピックを99.99%の信頼度で分類する。
論文 参考訳(メタデータ) (2024-04-02T17:49:40Z) - Bypassing LLM Watermarks with Color-Aware Substitutions [11.724935807582513]
セルフカラーテストベースの代替(SCTS)は、最初のカラーアウェアによる攻撃である。
SCTSは関連する作業よりも少ない編集数で透かし検出を回避した。
我々はSCTSが任意の長さの透かしテキストの透かしを除去できることを理論的にも経験的にも示している。
論文 参考訳(メタデータ) (2024-03-19T17:54:39Z) - Watermark Stealing in Large Language Models [2.1165011830664673]
本研究では,透かし付きLLMのAPIをほぼリバースエンジニアリングにクエリすることで,実用的なスプーフィング攻撃を可能にすることを示す。
私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
論文 参考訳(メタデータ) (2024-02-29T17:12:39Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。