Fugu-MT 論文翻訳(概要): Bypassing LLM Watermarks with Color-Aware Substitutions

論文の概要: Bypassing LLM Watermarks with Color-Aware Substitutions

arxiv url: http://arxiv.org/abs/2403.14719v1
Date: Tue, 19 Mar 2024 17:54:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 21:31:40.874759
Title: Bypassing LLM Watermarks with Color-Aware Substitutions
Title（参考訳）: カラーアウェア置換によるLCM透かしのバイパス
Authors: Qilong Wu, Varun Chandrasekaran,
Abstract要約: セルフカラーテストベースの代替(SCTS)は、最初のカラーアウェアによる攻撃である。 SCTSは関連する作業よりも少ない編集数で透かし検出を回避した。我々はSCTSが任意の長さの透かしテキストの透かしを除去できることを理論的にも経験的にも示している。
参考スコア（独自算出の注目度）: 11.724935807582513
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Watermarking approaches are proposed to identify if text being circulated is human or large language model (LLM) generated. The state-of-the-art watermarking strategy of Kirchenbauer et al. (2023a) biases the LLM to generate specific (``green'') tokens. However, determining the robustness of this watermarking method is an open problem. Existing attack methods fail to evade detection for longer text segments. We overcome this limitation, and propose {\em Self Color Testing-based Substitution (SCTS)}, the first ``color-aware'' attack. SCTS obtains color information by strategically prompting the watermarked LLM and comparing output tokens frequencies. It uses this information to determine token colors, and substitutes green tokens with non-green ones. In our experiments, SCTS successfully evades watermark detection using fewer number of edits than related work. Additionally, we show both theoretically and empirically that SCTS can remove the watermark for arbitrarily long watermarked text.
Abstract（参考訳）: テキストが人間か大きな言語モデル(LLM)であるかどうかを識別するために、透かし手法が提案されている。 Kirchenbauer et al (2023a) の最先端の透かし戦略は LLM を偏り、特定の (`green'') トークンを生成する。しかし、この透かし法の堅牢性を決定することは未解決の問題である。既存の攻撃方法は、長いテキストセグメントの検出を回避できない。我々はこの制限を克服し、最初の「カラーアウェア」攻撃であるSCTS(Self Color Testing-based Substitution)を提案する。 SCTSは、ウォーターマークされたLCMを戦略的に促し、出力トークンの周波数を比較することで、色情報を取得する。この情報を使ってトークンの色を決定し、緑色のトークンを非緑色のトークンに置き換える。本実験においてSCTSは関連する作業よりも少ない編集数で透かし検出を回避した。さらに、SCTSが任意の長さの透かしテキストの透かしを除去できることを理論的および実証的に示す。

関連論文リスト

DERMARK: A Dynamic, Efficient and Robust Multi-bit Watermark for Large Language Models [18.023143082876015]
動的,効率的,堅牢なマルチビット透かし方式であるDERMARKを提案する。 DERMARKはテキストを各ビットの埋め込みごとに異なる長さのセグメントに分割し、テキストの容量に適応的に適合する。これは、透かし抽出損失を最小限に抑えて、テキスト編集に対して無視できるオーバーヘッドと堅牢な性能で実現される。
論文参考訳（メタデータ） (2025-02-04T11:23:49Z)
De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文参考訳（メタデータ） (2024-10-17T17:42:10Z)
Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文参考訳（メタデータ） (2024-10-04T06:01:27Z)
Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文参考訳（メタデータ） (2024-07-17T18:52:12Z)
Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文参考訳（メタデータ） (2024-05-30T04:11:17Z)
On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。人や機械の言い回しをしても、透かしは検出可能である。また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文参考訳（メタデータ） (2023-06-07T17:58:48Z)
Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文参考訳（メタデータ） (2023-05-14T07:37:33Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。