論文の概要: $B^4$: A Black-Box Scrubbing Attack on LLM Watermarks
- arxiv url: http://arxiv.org/abs/2411.01222v1
- Date: Sat, 02 Nov 2024 12:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:05.234606
- Title: $B^4$: A Black-Box Scrubbing Attack on LLM Watermarks
- Title(参考訳): LLMのウォーターマークにブラックボックスのスクレイピング攻撃
- Authors: Baizhou Huang, Xiao Pu, Xiaojun Wan,
- Abstract要約: 透かしは、知覚不可能なパターンを埋め込むことによって、コンテンツ検出の顕著な技術として登場した。
以前の作業では、通常、特定のタイプの透かしが既に知られているグレーボックスアタックの設定が検討されていた。
ここでは、ウォーターマークに対するブラックボックススクラブ攻撃である$mathcalB4$を提案する。
- 参考スコア(独自算出の注目度): 42.933100948624315
- License:
- Abstract: Watermarking has emerged as a prominent technique for LLM-generated content detection by embedding imperceptible patterns. Despite supreme performance, its robustness against adversarial attacks remains underexplored. Previous work typically considers a grey-box attack setting, where the specific type of watermark is already known. Some even necessitates knowledge about hyperparameters of the watermarking method. Such prerequisites are unattainable in real-world scenarios. Targeting at a more realistic black-box threat model with fewer assumptions, we here propose $\mathcal{B}^4$, a black-box scrubbing attack on watermarks. Specifically, we formulate the watermark scrubbing attack as a constrained optimization problem by capturing its objectives with two distributions, a Watermark Distribution and a Fidelity Distribution. This optimization problem can be approximately solved using two proxy distributions. Experimental results across 12 different settings demonstrate the superior performance of $\mathcal{B}^4$ compared with other baselines.
- Abstract(参考訳): 透かしは、知覚不可能なパターンを埋め込むことによって、LLM生成コンテンツ検出の顕著な手法として登場した。
最高性能にもかかわらず、敵の攻撃に対する頑強さは未解明のままである。
以前の作業では、通常、特定のタイプの透かしが既に知られているグレーボックスアタックの設定が検討されていた。
透かし法のハイパーパラメータに関する知識を必要とするものもある。
このような前提条件は現実のシナリオでは達成できない。
少ない仮定でより現実的なブラックボックス脅威モデルをターゲットにして、透かしに対するブラックボックススクラブ攻撃である$\mathcal{B}^4$を提案する。
具体的には、ウォーターマーク分布とフィデリティ分布の2つの分布で目的を捉え、制約付き最適化問題としてウォーターマークスクラブ攻撃を定式化する。
この最適化問題は2つのプロキシ分布を用いて大まかに解くことができる。
12の異なる設定での実験結果は、他のベースラインと比較して$\mathcal{B}^4$の優れたパフォーマンスを示している。
関連論文リスト
- An undetectable watermark for generative image models [65.31658824274894]
生成画像モデルに対する検出不能な最初の透かし方式を提案する。
特に、検出不能な透かしは、効率的に計算可能なメートル法で画質を劣化させることはない。
提案手法は,擬似乱数誤り訂正符号を用いて拡散モデルの初期潜時間を選択する。
論文 参考訳(メタデータ) (2024-10-09T18:33:06Z) - Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。
我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。
実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文 参考訳(メタデータ) (2024-10-04T06:01:27Z) - Optimizing Adaptive Attacks against Content Watermarks for Language Models [5.798432964668272]
大規模な言語モデル(LLM)は、オンラインスパムや誤報を拡散するために省略することができる。
コンテンツ透かしは、モデル生成出力にメッセージを隠すことで誤用を検知し、秘密の透かしキーを使用して検出する。
論文 参考訳(メタデータ) (2024-10-03T12:37:39Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。
以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-28T08:41:30Z) - UnMarker: A Universal Attack on Defensive Watermarking [4.013156524547072]
私たちは、最初の実用的な$textituniversal$攻撃である$textitUnMarker$を提示します。
既存の攻撃とは異なり、textitUnMarker$は検出器のフィードバックを必要とせず、スキームや同様のモデルの非現実的な知識も必要とせず、利用できない可能性のある高度なデノゲーションパイプラインも不要である。
論文 参考訳(メタデータ) (2024-05-14T07:05:18Z) - Lost in Overlap: Exploring Watermark Collision in LLMs [6.398660996031915]
我々は、透かし攻撃の斬新で一般的な哲学として透かし衝突を導入する。
我々は、透かし衝突が全てのロジットベースの透かしアルゴリズムに脅威をもたらすという総合的なデモンストレーションを提供する。
論文 参考訳(メタデータ) (2024-03-15T05:06:21Z) - Watermark Stealing in Large Language Models [2.1165011830664673]
本研究では,透かし付きLLMのAPIをほぼリバースエンジニアリングにクエリすることで,実用的なスプーフィング攻撃を可能にすることを示す。
私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
論文 参考訳(メタデータ) (2024-02-29T17:12:39Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。