論文の概要: Publicly-Detectable Watermarking for Language Models
- arxiv url: http://arxiv.org/abs/2310.18491v3
- Date: Tue, 28 May 2024 06:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:38:36.634809
- Title: Publicly-Detectable Watermarking for Language Models
- Title(参考訳): 言語モデルのためのパブリック検出可能な透かし
- Authors: Jaiden Fairoze, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Mingyuan Wang,
- Abstract要約: LLMの高精度かつ信頼性の高い透かし方式を提案する。
このアルゴリズムは秘密情報を含んでおらず、誰でも実行可能である。
提案手法は, 暗号的に正しい, 音響的, 歪みのないものであることを実証する。
- 参考スコア(独自算出の注目度): 45.32236917886154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a highly detectable, trustless watermarking scheme for LLMs: the detection algorithm contains no secret information, and it is executable by anyone. We embed a publicly-verifiable cryptographic signature into LLM output using rejection sampling. We prove that our scheme is cryptographically correct, sound, and distortion-free. We make novel uses of error-correction techniques to overcome periods of low entropy, a barrier for all prior watermarking schemes. We implement our scheme and make empirical measurements over open models in the 2.7B to 70B parameter range. Our experiments suggest that our formal claims are met in practice.
- Abstract(参考訳): 検出アルゴリズムには秘密情報が含まれておらず,誰でも実行可能である。
リジェクションサンプリングを用いて、LLM出力に公開検証可能な暗号署名を埋め込む。
提案手法は, 暗号的に正しい, 音響的, 歪みのないものであることを実証する。
従来の透かし方式における障壁である低エントロピーの周期を克服するために, 誤り訂正手法を新規に活用する。
提案手法を実装し,2.7Bから70Bのパラメータ範囲におけるオープンモデル上での経験的測定を行う。
我々の実験は、我々の正式な主張が実際に満たされていることを示唆している。
関連論文リスト
- Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。
以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-28T08:41:30Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。
枠組みに基づく透かしの最適検出規則を導出する。
論文 参考訳(メタデータ) (2024-04-01T17:03:41Z) - Performance Trade-offs of Watermarking Large Language Models [28.556397738117617]
各種タスクにおいて,透かし付き大規模言語モデル (LLM) の性能を評価する。
ウォーターマーキングがkクラス分類問題として生じるタスクのパフォーマンスに無視できない影響があることが判明した。
要約や翻訳などの長文生成タスクでは、透かしによる性能の15~20%低下が見られる。
論文 参考訳(メタデータ) (2023-11-16T11:44:58Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Protecting Language Generation Models via Invisible Watermarking [41.532711376512744]
GINSEW(GINSEW)は,テキスト生成モデルが蒸留によって盗難されるのを防ぐ新しい方法である。
GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-02-06T23:42:03Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。