論文の概要: Publicly-Detectable Watermarking for Language Models
- arxiv url: http://arxiv.org/abs/2310.18491v4
- Date: Sat, 04 Jan 2025 13:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:47.444516
- Title: Publicly-Detectable Watermarking for Language Models
- Title(参考訳): 言語モデルのためのパブリック検出可能な透かし
- Authors: Jaiden Fairoze, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Mingyuan Wang,
- Abstract要約: 本稿では,LMの電子透かし方式について述べる。
我々は、リジェクションサンプリングを用いてLM出力に暗号署名を埋め込む。
我々は,この手法が不規則かつ歪みのないテキスト出力を生成することを証明した。
- 参考スコア(独自算出の注目度): 45.32236917886154
- License:
- Abstract: We present a publicly-detectable watermarking scheme for LMs: the detection algorithm contains no secret information, and it is executable by anyone. We embed a publicly-verifiable cryptographic signature into LM output using rejection sampling and prove that this produces unforgeable and distortion-free (i.e., undetectable without access to the public key) text output. We make use of error-correction to overcome periods of low entropy, a barrier for all prior watermarking schemes. We implement our scheme and find that our formal claims are met in practice.
- Abstract(参考訳): 本手法は秘密情報を含まないため,誰でも実行可能である。
我々は、拒絶サンプリングを用いて、公に検証可能な暗号署名をLM出力に埋め込んで、それが偽造不能で歪みのない(すなわち、公開鍵へのアクセスなしでは検出できない)テキスト出力を生成することを証明した。
我々は,全ての従来の透かし方式の障壁である低エントロピーの周期を克服するために,誤り補正を利用する。
私たちはこの計画を実行し、正式な主張が実際に満たされていることに気付きます。
関連論文リスト
- Provably Robust Watermarks for Open-Source Language Models [5.509756888700397]
オープンソースの言語モデルに対する最初の透かし方式を紹介する。
我々のスキームはモデルのパラメータを変更することで機能するが、透かしはモデルの出力だけから検出できる。
おそらく驚くべきことに、我々の透かしは敵の知識に関する特定の仮定の下では取り除けないことを証明している。
論文 参考訳(メタデータ) (2024-10-24T15:44:34Z) - Command-line Obfuscation Detection using Small Language Models [0.7373617024876725]
敵はしばしば検出を避けるためにコマンドライン難読化を使用する。
我々は、カスタムトレーニングされた小さなトランスフォーマー言語モデルを活用する、スケーラブルなNLPベースの検出手法を実装した。
確立したマルウェアのシグネチャに対するモデルの優位性を示すとともに,本モデルが検出した未確認の難読化サンプルを示す。
論文 参考訳(メタデータ) (2024-08-05T17:01:33Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。
枠組みに基づく透かしの最適検出規則を導出する。
論文 参考訳(メタデータ) (2024-04-01T17:03:41Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Protecting Language Generation Models via Invisible Watermarking [41.532711376512744]
GINSEW(GINSEW)は,テキスト生成モデルが蒸留によって盗難されるのを防ぐ新しい方法である。
GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-02-06T23:42:03Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。