論文の概要: Attacking LLM Watermarks by Exploiting Their Strengths
- arxiv url: http://arxiv.org/abs/2402.16187v1
- Date: Sun, 25 Feb 2024 20:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:04:31.772291
- Title: Attacking LLM Watermarks by Exploiting Their Strengths
- Title(参考訳): 強度の爆発によるLLM透かしの攻撃
- Authors: Qi Pang, Shengyuan Hu, Wenting Zheng, Virginia Smith
- Abstract要約: 生成モデルは、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツをミラーすることを可能にする。
モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。
既存の透かし方式が驚くほど攻撃を受けやすいことを示します。
- 参考スコア(独自算出の注目度): 22.07546496631127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in generative models have made it possible for AI-generated text,
code, and images to mirror human-generated content in many applications.
Watermarking, a technique that aims to embed information in the output of a
model to verify its source, is useful for mitigating misuse of such
AI-generated content. However, existing watermarking schemes remain
surprisingly susceptible to attack. In particular, we show that desirable
properties shared by existing LLM watermarking systems such as quality
preservation, robustness, and public detection APIs can in turn make these
systems vulnerable to various attacks. We rigorously study potential attacks in
terms of common watermark design choices, and propose best practices and
defenses for mitigation -- establishing a set of practical guidelines for
embedding and detection of LLM watermarks.
- Abstract(参考訳): 生成モデルの進歩により、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツのミラーリングを可能にした。
モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。
しかし、既存の透かしは驚くほど攻撃に弱いままである。
特に,品質維持やロバスト性,公開検出apiといった既存のllm透かしシステムで共有される望ましい特性は,これらのシステムを様々な攻撃に対して脆弱にすることができることを示す。
我々は、一般的なウォーターマーク設計の観点で潜在的な攻撃を厳格に研究し、緩和のためのベストプラクティスと防御を提案し、llmウォーターマークの埋め込みと検出のための実用的なガイドラインを策定する。
関連論文リスト
- Watermarking Large Language Models and the Generated Content: Opportunities and Challenges [18.01886375229288]
生成型大規模言語モデル(LLM)は知的財産権侵害や機械生成誤報の拡散に懸念を抱いている。
ウォーターマーキングは、所有権を確立し、許可されていない使用を防止し、LLM生成コンテンツの起源を追跡できる有望な手法として機能する。
本稿では,LLMをウォーターマークする際の課題と機会を要約し,共有する。
論文 参考訳(メタデータ) (2024-10-24T18:55:33Z) - ESpeW: Robust Copyright Protection for LLM-based EaaS via Embedding-Specific Watermark [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。
編集はモデル抽出攻撃に対して脆弱であり、著作権保護の緊急の必要性を強調している。
そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T04:34:49Z) - De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - WAPITI: A Watermark for Finetuned Open-Source LLMs [42.1087852764299]
WAPITIはパラメータ統合によってベースモデルから微調整モデルに透かしを転送する新しい手法である。
提案手法は,透かしの注入に成功し,微調整モデルとの互換性が高いことを示す。
論文 参考訳(メタデータ) (2024-10-09T01:41:14Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。