論文の概要: On the Reliability of Watermarks for Large Language Models
- arxiv url: http://arxiv.org/abs/2306.04634v3
- Date: Fri, 30 Jun 2023 18:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 12:43:50.863543
- Title: On the Reliability of Watermarks for Large Language Models
- Title(参考訳): 大規模言語モデルの透かしの信頼性について
- Authors: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid
Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum and Tom
Goldstein
- Abstract要約: 本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
- 参考スコア(独自算出の注目度): 50.01830399815094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs become commonplace, machine-generated text has the potential to flood
the internet with spam, social media bots, and valueless content. Watermarking
is a simple and effective strategy for mitigating such harms by enabling the
detection and documentation of LLM-generated text. Yet a crucial question
remains: How reliable is watermarking in realistic settings in the wild? There,
watermarked text may be modified to suit a user's needs, or entirely rewritten
to avoid detection.
We study the robustness of watermarked text after it is re-written by humans,
paraphrased by a non-watermarked LLM, or mixed into a longer hand-written
document. We find that watermarks remain detectable even after human and
machine paraphrasing. While these attacks dilute the strength of the watermark,
paraphrases are statistically likely to leak n-grams or even longer fragments
of the original text, resulting in high-confidence detections when enough
tokens are observed. For example, after strong human paraphrasing the watermark
is detectable after observing 800 tokens on average, when setting a 1e-5 false
positive rate. We also consider a range of new detection schemes that are
sensitive to short spans of watermarked text embedded inside a large document,
and we compare the robustness of watermarking to other kinds of detectors.
- Abstract(参考訳): LLMが一般的になるにつれて、機械生成テキストはスパム、ソーシャルメディアボット、価値のないコンテンツでインターネットを溢れさせる可能性がある。
ウォーターマーキングは、LCM生成テキストの検出と文書化を可能にすることで、そのような害を緩和するためのシンプルで効果的な戦略である。
しかし、重要な疑問が残る: 現実的な環境において、ウォーターマークはどの程度信頼できるのか?
そこで、透かし付きテキストはユーザーの要求に合うように修正されるか、検出を避けるために完全に書き換えられる。
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
これらの攻撃は透かしの強さを薄めるが、パラフレーズは統計学的にn-gramまたは元のテキストのより長い断片をリークし、十分なトークンが観測されたときに高い信頼度を検出する。
例えば、強い人間のパラフレージングの後、1e-5の偽陽性率を設定する場合、平均800トークンを観測した後、透かしを検出できる。
我々はまた、大きな文書に埋め込まれた透かしの短いテキストに敏感な新しい検出方法についても検討し、透かしの頑健さを他の種類の検出器と比較する。
関連論文リスト
- Adaptive Text Watermark for Large Language Models [9.569222603139332]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - On the Learnability of Watermarks for Language Models [88.45782629821468]
私たちは、デコードベースの透かしを利用する教師モデルのように振る舞うように学生モデルを訓練する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - Mark My Words: Analyzing and Evaluating Language Model Watermarks [8.610361087746718]
本研究は、画像透かしとは対照的に、テキスト透かし技術に焦点を当て、MARKMYWORDSを提案する。
品質、サイズ(透かしを検出するのに必要なトークンの数など)、タンパー抵抗の3つの主要な指標に注目します。
我々は、いくつかの先行研究で強調された基準である透かしの不明瞭さは、要求が強すぎると論じている。
論文 参考訳(メタデータ) (2023-12-01T01:22:46Z) - I Know You Did Not Write That! A Sampling Based Watermarking Method for
Identifying Machine Generated Text [0.0]
機械生成テキストを検出するための新しい透かし手法を提案する。
我々の方法は生成されたテキストにユニークなパターンを埋め込む。
本稿では,透かしがテキスト品質にどのように影響するかを示し,提案手法を最先端の透かし法と比較する。
論文 参考訳(メタデータ) (2023-11-29T20:04:57Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [88.50683534978407]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とする。
本稿では、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽造不可能な検証可能な透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - A Watermark for Large Language Models [60.66466446340074]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。