論文の概要: Segmenting Watermarked Texts From Language Models
- arxiv url: http://arxiv.org/abs/2410.20670v1
- Date: Mon, 28 Oct 2024 02:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:56.434627
- Title: Segmenting Watermarked Texts From Language Models
- Title(参考訳): 言語モデルからのウォーターマークテキストのセグメンテーション
- Authors: Xingchi Li, Guanxun Li, Xianyang Zhang,
- Abstract要約: この研究は、信頼できないサードパーティユーザーが信頼できる言語モデル(LLM)プロバイダにプロンプトを送信し、透かしでテキストを生成するシナリオに焦点を当てる。
この設定により、ユーザがそれを公開すれば、ディテクターが後でテキストのソースを識別できるようになる。
本稿では,出版されたテキストを透かしと非透かしのサブ文字列に分割する手法を提案する。
- 参考スコア(独自算出の注目度): 1.4103505579327706
- License:
- Abstract: Watermarking is a technique that involves embedding nearly unnoticeable statistical signals within generated content to help trace its source. This work focuses on a scenario where an untrusted third-party user sends prompts to a trusted language model (LLM) provider, who then generates a text from their LLM with a watermark. This setup makes it possible for a detector to later identify the source of the text if the user publishes it. The user can modify the generated text by substitutions, insertions, or deletions. Our objective is to develop a statistical method to detect if a published text is LLM-generated from the perspective of a detector. We further propose a methodology to segment the published text into watermarked and non-watermarked sub-strings. The proposed approach is built upon randomization tests and change point detection techniques. We demonstrate that our method ensures Type I and Type II error control and can accurately identify watermarked sub-strings by finding the corresponding change point locations. To validate our technique, we apply it to texts generated by several language models with prompts extracted from Google's C4 dataset and obtain encouraging numerical results. We release all code publicly at https://github.com/doccstat/llm-watermark-cpd.
- Abstract(参考訳): ウォーターマーキング(英: Watermarking)は、ほとんど目に見えない統計信号を生成されたコンテンツに埋め込んで、そのソースを追跡する技術である。
この研究は、信頼できないサードパーティユーザーが信頼できる言語モデル(LLM)プロバイダにプロンプトを送信し、透かしでLLMからテキストを生成するシナリオに焦点を当てる。
この設定により、ユーザがそれを公開すれば、ディテクターが後でテキストのソースを識別できるようになる。
ユーザは、置換、挿入、削除によって生成されたテキストを変更することができる。
本研究の目的は,出版テキストがLLM生成であるかどうかを検知する統計的手法を開発することである。
さらに,出版されたテキストを透かしと非透かしのサブ文字列に分割する手法を提案する。
提案手法はランダム化テストと変更点検出技術に基づいて構築される。
提案手法は,タイプIとタイプIIのエラー制御を確実にし,対応する変更点位置を見つけることで,透かし付きサブストリングを正確に識別できることを実証する。
本手法を検証するため,GoogleのC4データセットから抽出したプロンプトを用いて,複数の言語モデルによって生成されたテキストに適用し,数値的な結果を得る。
すべてのコードをhttps://github.com/doccstat/llm-watermark-cpdで公開しています。
関連論文リスト
- Provably Robust Multi-bit Watermarking for AI-generated Text [37.21416140194606]
大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する顕著な能力を示した。
犯罪者が偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために悪用することもある。
ウォーターマーキングはこれらの懸念に対処するための重要なテクニックであり、メッセージをテキストに埋め込む。
論文 参考訳(メタデータ) (2024-01-30T08:46:48Z) - I Know You Did Not Write That! A Sampling Based Watermarking Method for
Identifying Machine Generated Text [0.0]
機械生成テキストを検出するための新しい透かし手法を提案する。
我々の方法は生成されたテキストにユニークなパターンを埋め込む。
本稿では,透かしがテキスト品質にどのように影響するかを示し,提案手法を最先端の透かし法と比較する。
論文 参考訳(メタデータ) (2023-11-29T20:04:57Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。