論文の概要: Optimizing Adaptive Attacks against Content Watermarks for Language Models
- arxiv url: http://arxiv.org/abs/2410.02440v1
- Date: Thu, 3 Oct 2024 12:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:20:51.323054
- Title: Optimizing Adaptive Attacks against Content Watermarks for Language Models
- Title(参考訳): 言語モデルにおけるコンテンツ透かしに対する適応的攻撃の最適化
- Authors: Abdulrahman Diaa, Toluwani Aremu, Nils Lukas,
- Abstract要約: 大規模な言語モデル(LLM)は、オンラインスパムや誤報を拡散するために省略することができる。
コンテンツ透かしは、モデル生成出力にメッセージを隠すことで誤用を検知し、秘密の透かしキーを使用して検出する。
- 参考スコア(独自算出の注目度): 5.798432964668272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can be \emph{misused} to spread online spam and misinformation. Content watermarking deters misuse by hiding a message in model-generated outputs, enabling their detection using a secret watermarking key. Robustness is a core security property, stating that evading detection requires (significant) degradation of the content's quality. Many LLM watermarking methods have been proposed, but robustness is tested only against \emph{non-adaptive} attackers who lack knowledge of the watermarking method and can find only suboptimal attacks. We formulate the robustness of LLM watermarking as an objective function and propose preference-based optimization to tune \emph{adaptive} attacks against the specific watermarking method. Our evaluation shows that (i) adaptive attacks substantially outperform non-adaptive baselines. (ii) Even in a non-adaptive setting, adaptive attacks optimized against a few known watermarks remain highly effective when tested against other unseen watermarks, and (iii) optimization-based attacks are practical and require less than seven GPU hours. Our findings underscore the need to test robustness against adaptive attackers.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、オンラインスパムや誤報を拡散するためにemph{misused} と呼ばれる。
コンテンツ透かしは、モデル生成出力にメッセージを隠すことで誤用を検知し、秘密の透かしキーを使用して検出する。
ロバストネスは中核的なセキュリティ特性であり、検出を回避するにはコンテンツの品質を(重要な)劣化させる必要がある、と述べている。
多くのLSM透かし法が提案されているが、ロバスト性は、透かし法の知識が無く、準最適攻撃しか見つからない 'emph{non-adaptive} 攻撃者に対してのみ試験される。
目的関数としてLLM透かしのロバスト性を定式化し、特定の透かし法に対して \emph{adaptive} 攻撃をチューニングするための選好に基づく最適化を提案する。
私たちの評価は
i)適応攻撃は非適応的ベースラインを大幅に上回る。
二 適応的でない状況にあっても、いくつかの既知の透かしに対して最適化された適応的攻撃は、他の目に見えない透かしに対して試験しても、非常に効果的である。
3) 最適化ベースの攻撃は実用的であり、7時間未満のGPU時間を必要とする。
本研究は,アダプティブアタッカーに対するロバスト性テストの必要性を浮き彫りにした。
関連論文リスト
- WAPITI: A Watermark for Finetuned Open-Source LLMs [42.1087852764299]
WAPITIはパラメータ統合によってベースモデルから微調整モデルに透かしを転送する新しい手法である。
提案手法は,透かしの注入に成功し,微調整モデルとの互換性が高いことを示す。
論文 参考訳(メタデータ) (2024-10-09T01:41:14Z) - Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice [35.319577498993354]
大きな言語モデル(LLM)は人間の効率を高めるが、誤用リスクを引き起こす。
本稿では,LLMの透かしのための新しい理論的枠組みを提案する。
我々は,検出性能を最大化するために,透かし方式と検出器の両方を共同で最適化する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - Robustness of Watermarking on Text-to-Image Diffusion Models [9.277492743469235]
本稿では,透かし埋め込みとテキスト・ツー・イメージ・ジェネレーション処理を統合することで生成する透かしの堅牢性について検討する。
生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-04T13:59:09Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - Leveraging Optimization for Adaptive Attacks on Image Watermarks [31.70167647613335]
ウォーターマーキングは、生成されたコンテンツを隠されたメッセージでマークすることで誤用を検知し、秘密のウォーターマーキングキーを使用して検出する。
堅牢性を評価するには、特定の透かしアルゴリズムに対する適応的な攻撃を設計する必要がある。
画像品質を劣化させることなく,5つの透かし法を全て破壊できることを示す。
論文 参考訳(メタデータ) (2023-09-29T03:36:42Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。