論文の概要: Watermark Stealing in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.19361v1
- Date: Thu, 29 Feb 2024 17:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:44:25.338543
- Title: Watermark Stealing in Large Language Models
- Title(参考訳): 大規模言語モデルにおける透かし盗み
- Authors: Nikola Jovanovi\'c, Robin Staab, Martin Vechev
- Abstract要約: 本研究では,透かし付きLLMのAPIをほぼリバースエンジニアリングにクエリすることで,実用的なスプーフィング攻撃を可能にすることを示す。
私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
- 参考スコア(独自算出の注目度): 5.831737970661138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM watermarking has attracted attention as a promising way to detect
AI-generated content, with some works suggesting that current schemes may
already be fit for deployment. In this work we dispute this claim, identifying
watermark stealing (WS) as a fundamental vulnerability of these schemes. We
show that querying the API of the watermarked LLM to approximately
reverse-engineer a watermark enables practical spoofing attacks, as suggested
in prior work, but also greatly boosts scrubbing attacks, which was previously
unnoticed. We are the first to propose an automated WS algorithm and use it in
the first comprehensive study of spoofing and scrubbing in realistic settings.
We show that for under $50 an attacker can both spoof and scrub
state-of-the-art schemes previously considered safe, with average success rate
of over 80%. Our findings challenge common beliefs about LLM watermarking,
stressing the need for more robust schemes. We make all our code and additional
examples available at https://watermark-stealing.org.
- Abstract(参考訳): LLMウォーターマーキングはAI生成コンテンツを検出する有望な方法として注目されており、現在のスキームがデプロイメントにすでに適合している可能性を示唆する研究もある。
本稿では、これらのスキームの根本的な脆弱性として、透かし盗み(WS)を識別するこの主張について議論する。
透かし付きLLMのAPIをほぼリバースエンジニアリングに問い合わせると、透かしは以前の研究で示唆されたように、実用的な密封攻撃を可能にするが、以前は気づかなかったスクラブ攻撃を大幅に促進する。
私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
50ドル未満では、攻撃者は以前安全と考えられていた最先端のスキームを、80%以上の成功率で盗み取ることができる。
LLM透かしに関する一般的な信念に挑戦し、より堅牢なスキームの必要性を強調した。
すべてのコードと追加の例をhttps://watermark-stealing.org.comで公開しています。
関連論文リスト
- Topic-based Watermarks for LLM-Generated Text [46.71493672772134]
大規模言語モデル(LLM)のための「トピックベース透かしアルゴリズム」を提案する。
提案アルゴリズムは,入力プロンプトの抽出されたトピックや非透かしLLMの出力に基づいて,透かしLLM出力のトークンを生成する方法を決定する。
論文 参考訳(メタデータ) (2024-04-02T17:49:40Z) - Attacking LLM Watermarks by Exploiting Their Strengths [22.07546496631127]
生成モデルは、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツをミラーすることを可能にする。
モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。
既存の透かし方式が驚くほど攻撃を受けやすいことを示します。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - A Semantic Invariant Robust Watermark for Large Language Models [29.52715060360837]
大規模言語モデル(LLM)に対する意味不変な透かし手法を提案する。
私たちの研究における透かしのロジットは、前のトークンのセマンティクスによって決定されます。
私たちの透かしには適切なセキュリティの堅牢性があることも示しています。
論文 参考訳(メタデータ) (2023-10-10T06:49:43Z) - SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-06T03:33:42Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [88.50683534978407]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とする。
本稿では、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽造不可能な検証可能な透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Who Wrote this Code? Watermarking for Code Generation [55.54239495289517]
エントロピー閾値(SWEET)を用いた新しい透かし手法Selective WatErmarkingを提案する。
SWEETは、生成中のトークン分布のエントロピーが高い位置にのみ「グリーン」トークンをプロモートすることで、生成されたコードの正確性を維持する。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - SoK: How Robust is Image Classification Deep Neural Network
Watermarking? (Extended Version) [16.708069984516964]
我々は,最近提案された,ロバスト性を主張する透かし方式が,大規模な除去攻撃に対して堅牢であるか否かを評価する。
調査されたウォーターマーキングスキームのいずれも、実際のデータセットでは堅牢ではない。
我々は,より現実的な敵モデルを用いて,より広範囲にわたる除去攻撃に対して,透かし方式を評価する必要があることを示す。
論文 参考訳(メタデータ) (2021-08-11T00:23:33Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。