論文の概要: A Watermark for Large Language Models
- arxiv url: http://arxiv.org/abs/2301.10226v1
- Date: Tue, 24 Jan 2023 18:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:41:01.893842
- Title: A Watermark for Large Language Models
- Title(参考訳): 大規模言語モデルのための透かし
- Authors: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers,
Tom Goldstein
- Abstract要約: 本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できる影響で埋め込むことができ、言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
- 参考スコア(独自算出の注目度): 60.66466446340074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Potential harms of large language models can be mitigated by watermarking
model output, i.e., embedding signals into generated text that are invisible to
humans but algorithmically detectable from a short span of tokens. We propose a
watermarking framework for proprietary language models. The watermark can be
embedded with negligible impact on text quality, and can be detected using an
efficient open-source algorithm without access to the language model API or
parameters. The watermark works by selecting a randomized set of whitelist
tokens before a word is generated, and then softly promoting use of whitelist
tokens during sampling. We propose a statistical test for detecting the
watermark with interpretable p-values, and derive an information-theoretic
framework for analyzing the sensitivity of the watermark. We test the watermark
using a multi-billion parameter model from the Open Pretrained Transformer
(OPT) family, and discuss robustness and security.
- Abstract(参考訳): 大規模な言語モデルの潜在的な害は、モデルの出力、例えば、人間の目に見えないが短いトークンからアルゴリズムで検出可能な生成されたテキストに信号を埋め込むことによって軽減できる。
プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響を与え、言語モデルapiやパラメータにアクセスせずに、効率的なオープンソースアルゴリズムを使って検出することができる。
ウォーターマークは、単語が生成される前にランダム化されたホワイトリストトークンのセットを選択し、サンプリング中にホワイトリストトークンの使用をソフトに促進する。
我々は,解釈可能なp値で透かしを検出する統計的テストを提案し,透かしの感度を解析するための情報理論の枠組みを導出する。
我々は,Open Pretrained Transformer (OPT) ファミリーのマルチビリオンパラメータモデルを用いて透かしを検証し,堅牢性とセキュリティについて議論する。
関連論文リスト
- Supervised GAN Watermarking for Intellectual Property Protection [33.827150843939094]
本稿では,GAN(Generative Adversarial Networks)のための透かし手法を提案する。
目的は、GANモデルで生成された画像が見えない透かし(署名)を含むように、GANモデルに透かしを付けることである。
その結果,本手法は生成画像内に見えない透かしを効果的に埋め込むことができることがわかった。
論文 参考訳(メタデータ) (2022-09-07T20:52:05Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z) - Generating Watermarked Adversarial Texts [25.285034639688377]
近年では、ディープニューラルネットワーク(DNN)が生成した敵のサンプルを誤分類する可能性があるため、敵のサンプル生成がホットスポットとなっている。
本稿では,透かし付き逆テキストの例を生成するための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-25T13:37:23Z) - Reversible Watermarking in Deep Convolutional Neural Networks for
Integrity Authentication [78.165255859254]
整合性認証のための可逆透かしアルゴリズムを提案する。
可逆透かしを埋め込むことが分類性能に及ぼす影響は0.5%未満である。
同時に、可逆的な透かしを適用することでモデルの完全性を検証することができる。
論文 参考訳(メタデータ) (2021-04-09T09:32:21Z) - Piracy-Resistant DNN Watermarking by Block-Wise Image Transformation
with Secret Key [15.483078145498085]
提案手法は学習可能な変換画像を用いてモデルに透かしパターンを埋め込む。
海賊に耐性があるため、元のウォーターマークは海賊版ウォーターマークでは上書きできない。
その結果,高い透かし検出精度を維持しつつ,微調整や刈り込み攻撃に対して弾力性を示した。
論文 参考訳(メタデータ) (2021-04-09T08:21:53Z) - Robust Black-box Watermarking for Deep NeuralNetwork using Inverse
Document Frequency [1.2502377311068757]
テキストドメイン用に設計されたディープニューラルネットワーク(DNN)モデルを透かし出すためのフレームワークを提案する。
提案した埋め込み手順はモデルのトレーニング時間内に行われ、透かし検証ステージが簡単になる。
実験の結果, 透かし付きモデルでは, 元のモデルと同じ精度を示した。
論文 参考訳(メタデータ) (2021-03-09T17:56:04Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Generating Image Adversarial Examples by Embedding Digital Watermarks [38.93689142953098]
本稿では,DNN(Deep Neural Network, ディープ・ニューラル・ネットワーク)モデルに対する画像逆転例を生成する,新しいデジタル透かしに基づく手法を提案する。
ホスト画像と透かし画像を選択するための効率的な機構を考案し、改良された離散ウェーブレット変換(DWT)に基づく透かしアルゴリズムを利用する。
我々のスキームは、CIFAR-10データセット上の各画像に対する攻撃を完了する平均1.17秒で、多数の敵例を効率的に生成することができる。
論文 参考訳(メタデータ) (2020-08-14T09:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。