論文の概要: An Unforgeable Publicly Verifiable Watermark for Large Language Models
- arxiv url: http://arxiv.org/abs/2307.16230v5
- Date: Thu, 29 Feb 2024 14:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:50:51.067780
- Title: An Unforgeable Publicly Verifiable Watermark for Large Language Models
- Title(参考訳): 大型言語モデルのための忘れられない公証可能な透かし
- Authors: Aiwei Liu, Leyi Pan, Xuming Hu, Shu'ang Li, Lijie Wen, Irwin King and
Philip S. Yu
- Abstract要約: 現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とする。
本稿では、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽造不可能な検証可能な透かしアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 88.50683534978407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, text watermarking algorithms for large language models (LLMs) have
been proposed to mitigate the potential harms of text generated by LLMs,
including fake news and copyright issues. However, current watermark detection
algorithms require the secret key used in the watermark generation process,
making them susceptible to security breaches and counterfeiting during public
detection. To address this limitation, we propose an unforgeable publicly
verifiable watermark algorithm that uses two different neural networks for
watermark generation and detection, instead of using the same key at both
stages. Meanwhile, the token embedding parameters are shared between the
generation and detection networks, which makes the detection network achieve a
high accuracy very efficiently. Experiments demonstrate that our algorithm
attains high detection accuracy and computational efficiency through neural
networks with a minimized number of parameters. Subsequent analysis confirms
the high complexity involved in forging the watermark from the detection
network. Our code and data are available at
\href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}.
- Abstract(参考訳): 近年,大型言語モデル (LLM) のためのテキスト透かしアルゴリズムが提案され,偽ニュースや著作権問題など LLM が生成するテキストの潜在的な害を軽減している。
しかし、現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とするため、公衆の検知中にセキュリティ違反や偽造の影響を受けやすい。
この制限に対処するため、両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽の公開検証可能な透かしアルゴリズムを提案する。
一方、トークン埋め込みパラメータは生成ネットワークと検出ネットワークの間で共有され、検出ネットワークは極めて効率的に精度が向上する。
実験により,パラメータの最小化によるニューラルネットワークによる検出精度と計算効率の向上が示された。
その後の解析により、検出ネットワークから透かしを鍛造する際の複雑さが確認される。
私たちのコードとデータは、 \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}で利用可能です。
関連論文リスト
- Token-Specific Watermarking with Enhanced Detectability and Semantic
Coherence for Large Language Models [32.914584565739894]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストの意味的整合性の両方を達成するという課題に直面している。
本稿では,トークン固有の透かしロジットと分割比を生成するために,軽量ネットワークを利用した透かしのための新しい多目的最適化(MOO)手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。
また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文 参考訳(メタデータ) (2024-02-26T14:01:34Z) - On the Reliability of Watermarks for Large Language Models [50.01830399815094]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Who Wrote this Code? Watermarking for Code Generation [55.54239495289517]
エントロピー閾値(SWEET)を用いた新しい透かし手法Selective WatErmarkingを提案する。
SWEETは、生成中のトークン分布のエントロピーが高い位置にのみ「グリーン」トークンをプロモートすることで、生成されたコードの正確性を維持する。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - A Watermark for Large Language Models [60.66466446340074]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Reversible Watermarking in Deep Convolutional Neural Networks for
Integrity Authentication [78.165255859254]
整合性認証のための可逆透かしアルゴリズムを提案する。
可逆透かしを埋め込むことが分類性能に及ぼす影響は0.5%未満である。
同時に、可逆的な透かしを適用することでモデルの完全性を検証することができる。
論文 参考訳(メタデータ) (2021-04-09T09:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。