Fugu-MT 論文翻訳(概要): Watermark Stealing in Large Language Models

論文の概要: Watermark Stealing in Large Language Models

arxiv url: http://arxiv.org/abs/2402.19361v1
Date: Thu, 29 Feb 2024 17:12:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 13:44:25.338543
Title: Watermark Stealing in Large Language Models
Title（参考訳）: 大規模言語モデルにおける透かし盗み
Authors: Nikola Jovanovi\'c, Robin Staab, Martin Vechev
Abstract要約: 本研究では,透かし付きLLMのAPIをほぼリバースエンジニアリングにクエリすることで,実用的なスプーフィング攻撃を可能にすることを示す。私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
参考スコア（独自算出の注目度）: 5.831737970661138
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM watermarking has attracted attention as a promising way to detect AI-generated content, with some works suggesting that current schemes may already be fit for deployment. In this work we dispute this claim, identifying watermark stealing (WS) as a fundamental vulnerability of these schemes. We show that querying the API of the watermarked LLM to approximately reverse-engineer a watermark enables practical spoofing attacks, as suggested in prior work, but also greatly boosts scrubbing attacks, which was previously unnoticed. We are the first to propose an automated WS algorithm and use it in the first comprehensive study of spoofing and scrubbing in realistic settings. We show that for under $50 an attacker can both spoof and scrub state-of-the-art schemes previously considered safe, with average success rate of over 80%. Our findings challenge common beliefs about LLM watermarking, stressing the need for more robust schemes. We make all our code and additional examples available at https://watermark-stealing.org.
Abstract（参考訳）: LLMウォーターマーキングはAI生成コンテンツを検出する有望な方法として注目されており、現在のスキームがデプロイメントにすでに適合している可能性を示唆する研究もある。本稿では、これらのスキームの根本的な脆弱性として、透かし盗み(WS)を識別するこの主張について議論する。透かし付きLLMのAPIをほぼリバースエンジニアリングに問い合わせると、透かしは以前の研究で示唆されたように、実用的な密封攻撃を可能にするが、以前は気づかなかったスクラブ攻撃を大幅に促進する。私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。 50ドル未満では、攻撃者は以前安全と考えられていた最先端のスキームを、80%以上の成功率で盗み取ることができる。 LLM透かしに関する一般的な信念に挑戦し、より堅牢なスキームの必要性を強調した。すべてのコードと追加の例をhttps://watermark-stealing.org.comで公開しています。

関連論文リスト

Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks [36.01146548147208]
テキスト透かしアルゴリズムは、テキストの品質を保証するために、ハイエントロピートークンに透かしを埋め込む。本稿では,この外観上の不明瞭な設計が攻撃者によって悪用され,透かしの堅牢性に重大なリスクを及ぼすことを明らかにする。本稿では,トークンの自己情報を計算することで,その脆弱性を利用する汎用的なパラフレーズ攻撃を提案する。
論文参考訳（メタデータ） (2025-05-08T12:39:00Z)
Toward Breaking Watermarks in Distortion-free Large Language Models [11.922206306917435]
我々は,LSMを「妥協」し,スプーフィング攻撃を行うことが可能であることを示す。具体的には,ウォーターマーキングに用いる秘密鍵を正確に推定する混合整数線形プログラミングフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-25T19:52:55Z)
Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models [16.57738116313139]
攻撃者は、異なる潜在空間やアーキテクチャであっても、無関係なモデルを利用して、強力で現実的な偽造攻撃を行うことができることを示す。第1は、対象の透かしを実画像に印字し、無関係のLCMにおいて任意の画像の潜在表現を操作する。第2の攻撃は、透かし画像を反転させて任意のプロンプトで再生することにより、目標の透かしで新たな画像を生成する。
論文参考訳（メタデータ） (2024-12-04T12:57:17Z)
Your Fixed Watermark is Fragile: Towards Semantic-Aware Watermark for EaaS Copyright Protection [5.2431999629987]
埋め込み・アズ・ア・サービス(E: Embedding-as-a-Service)はビジネスパターンとして成功したが、著作権侵害に関する重大な課題に直面している。様々な研究が、Eサービスの著作権を保護するためのバックドアベースの透かし方式を提案している。本稿では,従来の透かし方式が意味に依存しない特徴を持つことを示す。
論文参考訳（メタデータ） (2024-11-14T11:06:34Z)
Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文参考訳（メタデータ） (2024-10-04T06:01:27Z)
Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文参考訳（メタデータ） (2024-07-04T17:56:04Z)
Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文参考訳（メタデータ） (2024-05-30T04:11:17Z)
Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文参考訳（メタデータ） (2024-05-28T08:41:30Z)
Lost in Overlap: Exploring Watermark Collision in LLMs [6.398660996031915]
我々は、透かし攻撃の斬新で一般的な哲学として透かし衝突を導入する。我々は、透かし衝突が全てのロジットベースの透かしアルゴリズムに脅威をもたらすという総合的なデモンストレーションを提供する。
論文参考訳（メタデータ） (2024-03-15T05:06:21Z)
Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文参考訳（メタデータ） (2023-11-16T03:22:53Z)
A Semantic Invariant Robust Watermark for Large Language Models [27.522264953691746]
以前の透かしアルゴリズムは、攻撃の堅牢性とセキュリティの堅牢性の間のトレードオフに直面していた。これは、トークンの透かしロジットが、先行するトークンの数によって決定されるためである。攻撃の堅牢性とセキュリティの堅牢性の両方を提供するLLMのセマンティック不変な透かし手法を提案する。
論文参考訳（メタデータ） (2023-10-10T06:49:43Z)
An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文参考訳（メタデータ） (2023-07-30T13:43:27Z)
Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文参考訳（メタデータ） (2020-09-18T09:14:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。