Fugu-MT 論文翻訳(概要): $B^4$: A Black-Box Scrubbing Attack on LLM Watermarks

論文の概要: $B^4$: A Black-Box Scrubbing Attack on LLM Watermarks

arxiv url: http://arxiv.org/abs/2411.01222v1
Date: Sat, 02 Nov 2024 12:01:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.663699
Title: $B^4$: A Black-Box Scrubbing Attack on LLM Watermarks
Title（参考訳）: LLMのウォーターマークにブラックボックスのスクレイピング攻撃
Authors: Baizhou Huang, Xiao Pu, Xiaojun Wan,
Abstract要約: 透かしは、知覚不可能なパターンを埋め込むことによって、コンテンツ検出の顕著な技術として登場した。以前の作業では、通常、特定のタイプの透かしが既に知られているグレーボックスアタックの設定が検討されていた。ここでは、ウォーターマークに対するブラックボックススクラブ攻撃である$mathcalB4$を提案する。
参考スコア（独自算出の注目度）: 42.933100948624315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Watermarking has emerged as a prominent technique for LLM-generated content detection by embedding imperceptible patterns. Despite supreme performance, its robustness against adversarial attacks remains underexplored. Previous work typically considers a grey-box attack setting, where the specific type of watermark is already known. Some even necessitates knowledge about hyperparameters of the watermarking method. Such prerequisites are unattainable in real-world scenarios. Targeting at a more realistic black-box threat model with fewer assumptions, we here propose $\mathcal{B}^4$, a black-box scrubbing attack on watermarks. Specifically, we formulate the watermark scrubbing attack as a constrained optimization problem by capturing its objectives with two distributions, a Watermark Distribution and a Fidelity Distribution. This optimization problem can be approximately solved using two proxy distributions. Experimental results across 12 different settings demonstrate the superior performance of $\mathcal{B}^4$ compared with other baselines.
Abstract（参考訳）: 透かしは、知覚不可能なパターンを埋め込むことによって、LLM生成コンテンツ検出の顕著な手法として登場した。最高性能にもかかわらず、敵の攻撃に対する頑強さは未解明のままである。以前の作業では、通常、特定のタイプの透かしが既に知られているグレーボックスアタックの設定が検討されていた。透かし法のハイパーパラメータに関する知識を必要とするものもある。このような前提条件は現実のシナリオでは達成できない。少ない仮定でより現実的なブラックボックス脅威モデルをターゲットにして、透かしに対するブラックボックススクラブ攻撃である$\mathcal{B}^4$を提案する。具体的には、ウォーターマーク分布とフィデリティ分布の2つの分布で目的を捉え、制約付き最適化問題としてウォーターマークスクラブ攻撃を定式化する。この最適化問題は2つのプロキシ分布を用いて大まかに解くことができる。 12の異なる設定での実験結果は、他のベースラインと比較して$\mathcal{B}^4$の優れたパフォーマンスを示している。

関連論文リスト

When There Is No Decoder: Removing Watermarks from Stable Diffusion Models in a No-box Setting [37.85082375268253]
本研究では,透かしの埋め込みをテキスト・ツー・イメージ生成と組み合わせたモデル固有透かしの堅牢性について検討する。我々は、エッジ予測ベースの3つの攻撃戦略、ボックスのぼかし、ノーボックス設定で微調整ベースの攻撃を導入する。我々の最高の攻撃は、透かし検出精度を約47.92%に低下させる。
論文参考訳（メタデータ） (2025-07-04T15:22:20Z)
Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks [36.01146548147208]
テキスト透かしアルゴリズムは、テキストの品質を保証するために、ハイエントロピートークンに透かしを埋め込む。本稿では,この外観上の不明瞭な設計が攻撃者によって悪用され,透かしの堅牢性に重大なリスクを及ぼすことを明らかにする。本稿では,トークンの自己情報を計算することで,その脆弱性を利用する汎用的なパラフレーズ攻撃を提案する。
論文参考訳（メタデータ） (2025-05-08T12:39:00Z)
Invisible Watermarks: Attacks and Robustness [0.3495246564946556]
本稿では,攻撃時の画像品質の劣化を最小限に抑えるとともに,透かしの堅牢性を向上する新しい手法を提案する。そこで本研究では,デコード中,一方の透かしのモダリティを保ちながら他方を完全に除去する独自の透かし除去ネットワークを提案する。評価の結果,1)他のモダリティを復号する際の透かしモダリティの1つを保持するための透かし除去モデルの実装は,ベースライン性能において若干改善され,2)LBAは画像全体の均一なぼかしに比べて画像の劣化を著しく低減することがわかった。
論文参考訳（メタデータ） (2024-12-17T03:50:13Z)
Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models [16.57738116313139]
攻撃者は、異なる潜在空間やアーキテクチャであっても、無関係なモデルを利用して、強力で現実的な偽造攻撃を行うことができることを示す。第1は、対象の透かしを実画像に印字し、無関係のLCMにおいて任意の画像の潜在表現を操作する。第2の攻撃は、透かし画像を反転させて任意のプロンプトで再生することにより、目標の透かしで新たな画像を生成する。
論文参考訳（メタデータ） (2024-12-04T12:57:17Z)
The Efficacy of Transfer-based No-box Attacks on Image Watermarking: A Pragmatic Analysis [11.724935807582513]
我々は,攻撃者が透かしモデルについて何も知らないと仮定される,no-box'設定における画像透かし手法の堅牢性について検討する。構成がほぼ一致している場合、単純な非最適化攻撃が、最適化ベースの取り組みの成功をすでに上回っていることを示す。
論文参考訳（メタデータ） (2024-12-03T17:02:49Z)
An undetectable watermark for generative image models [65.31658824274894]
生成画像モデルに対する検出不能な最初の透かし方式を提案する。特に、検出不能な透かしは、効率的に計算可能なメートル法で画質を劣化させることはない。提案手法は,擬似乱数誤り訂正符号を用いて拡散モデルの初期潜時間を選択する。
論文参考訳（メタデータ） (2024-10-09T18:33:06Z)
Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文参考訳（メタデータ） (2024-10-04T06:01:27Z)
Optimizing Adaptive Attacks against Content Watermarks for Language Models [5.798432964668272]
大規模な言語モデル(LLM)は、オンラインスパムや誤報を拡散するために省略することができる。コンテンツ透かしは、モデル生成出力にメッセージを隠すことで誤用を検知し、秘密の透かしキーを使用して検出する。
論文参考訳（メタデータ） (2024-10-03T12:37:39Z)
Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文参考訳（メタデータ） (2024-05-30T04:11:17Z)
Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文参考訳（メタデータ） (2024-05-28T08:41:30Z)
Latent Watermark: Inject and Detect Watermarks in Latent Diffusion Space [7.082806239644562]
既存の手法は、画質と透かしの堅牢性のジレンマに直面している。画像品質の優れた透かしは通常、ぼやけやJPEG圧縮のような攻撃に対して弱い堅牢性を持つ。本稿では,潜伏拡散空間内の透かしを注入し,検出する潜伏透かしを提案する。
論文参考訳（メタデータ） (2024-03-30T03:19:50Z)
Lost in Overlap: Exploring Watermark Collision in LLMs [6.398660996031915]
我々は、透かし攻撃の斬新で一般的な哲学として透かし衝突を導入する。我々は、透かし衝突が全てのロジットベースの透かしアルゴリズムに脅威をもたらすという総合的なデモンストレーションを提供する。
論文参考訳（メタデータ） (2024-03-15T05:06:21Z)
Watermark Stealing in Large Language Models [2.1165011830664673]
本研究では,透かし付きLLMのAPIをほぼリバースエンジニアリングにクエリすることで,実用的なスプーフィング攻撃を可能にすることを示す。私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
論文参考訳（メタデータ） (2024-02-29T17:12:39Z)
Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文参考訳（メタデータ） (2022-07-16T16:06:59Z)
Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文参考訳（メタデータ） (2020-09-18T09:14:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。