論文の概要: Attacking LLM Watermarks by Exploiting Their Strengths
- arxiv url: http://arxiv.org/abs/2402.16187v1
- Date: Sun, 25 Feb 2024 20:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:04:31.772291
- Title: Attacking LLM Watermarks by Exploiting Their Strengths
- Title(参考訳): 強度の爆発によるLLM透かしの攻撃
- Authors: Qi Pang, Shengyuan Hu, Wenting Zheng, Virginia Smith
- Abstract要約: 生成モデルは、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツをミラーすることを可能にする。
モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。
既存の透かし方式が驚くほど攻撃を受けやすいことを示します。
- 参考スコア(独自算出の注目度): 22.07546496631127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in generative models have made it possible for AI-generated text,
code, and images to mirror human-generated content in many applications.
Watermarking, a technique that aims to embed information in the output of a
model to verify its source, is useful for mitigating misuse of such
AI-generated content. However, existing watermarking schemes remain
surprisingly susceptible to attack. In particular, we show that desirable
properties shared by existing LLM watermarking systems such as quality
preservation, robustness, and public detection APIs can in turn make these
systems vulnerable to various attacks. We rigorously study potential attacks in
terms of common watermark design choices, and propose best practices and
defenses for mitigation -- establishing a set of practical guidelines for
embedding and detection of LLM watermarks.
- Abstract(参考訳): 生成モデルの進歩により、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツのミラーリングを可能にした。
モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。
しかし、既存の透かしは驚くほど攻撃に弱いままである。
特に,品質維持やロバスト性,公開検出apiといった既存のllm透かしシステムで共有される望ましい特性は,これらのシステムを様々な攻撃に対して脆弱にすることができることを示す。
我々は、一般的なウォーターマーク設計の観点で潜在的な攻撃を厳格に研究し、緩和のためのベストプラクティスと防御を提案し、llmウォーターマークの埋め込みと検出のための実用的なガイドラインを策定する。
関連論文リスト
- WARDEN: Multi-Directional Backdoor Watermarks for Embedding-as-a-Service
Copyright Protection [8.368470115534695]
本稿では,複数の可能な透かし方向を組み込むことで,透かしの除去をより困難にするための新しいプロトコルを提案する。
我々の防衛アプローチであるWARDENは、特に透かしのステルスネスを高め、CSE攻撃に対して実証的に有効であることが示されている。
論文 参考訳(メタデータ) (2024-03-03T10:39:27Z) - Watermark Stealing in Large Language Models [5.831737970661138]
本研究では,透かし付きLLMのAPIをほぼリバースエンジニアリングにクエリすることで,実用的なスプーフィング攻撃を可能にすることを示す。
私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
論文 参考訳(メタデータ) (2024-02-29T17:12:39Z) - Double-I Watermark: Protecting Model Copyright for LLM Fine-tuning [48.37597402174551]
二重I透かし」という新しい透かし手法を提案する。
提案手法はLLMの学習能力を活用することで,微調整中に特定の透かし情報をカスタマイズされたモデルに効果的に注入する。
提案手法を各種微調整法で評価し, その無害性, 頑健性, 独特性, 不受容性, 妥当性を理論的解析および実験的検証により検証した。
論文 参考訳(メタデータ) (2024-02-22T04:55:14Z) - Adaptive Text Watermark for Large Language Models [9.569222603139332]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - On the Learnability of Watermarks for Language Models [88.45782629821468]
私たちは、デコードベースの透かしを利用する教師モデルのように振る舞うように学生モデルを訓練する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - A Systematic Review on Model Watermarking for Neural Networks [1.2691047660244335]
この研究は、機械学習モデルのための異なるクラスの透かしスキームを特定し解析する分類法を提案する。
これは、構造化推論を可能にする統一的な脅威モデルを導入し、ウォーターマーキング手法の有効性の比較を行う。
望ましいセキュリティ要件とMLモデルの透かしに対する攻撃を体系化する。
論文 参考訳(メタデータ) (2020-09-25T12:03:02Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。