論文の概要: Edit Distance Robust Watermarks for Language Models
- arxiv url: http://arxiv.org/abs/2406.02633v1
- Date: Tue, 4 Jun 2024 04:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:19:06.968079
- Title: Edit Distance Robust Watermarks for Language Models
- Title(参考訳): 言語モデルのための距離ロバストな透かしの編集
- Authors: Noah Golowich, Ankur Moitra,
- Abstract要約: AI生成テキストの検出の問題に触発されて、証明可能な保証付き言語モデルの出力を透かしする問題を考える。
a)非検出性、(a)Christ, Gunn & Zamir (2024) が導入した暗号概念、(b) 敵の挿入、置換、削除を一定の割合で導入するチャネルに対する堅牢性。
- 参考スコア(独自算出の注目度): 29.69428894587431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the problem of detecting AI-generated text, we consider the problem of watermarking the output of language models with provable guarantees. We aim for watermarks which satisfy: (a) undetectability, a cryptographic notion introduced by Christ, Gunn & Zamir (2024) which stipulates that it is computationally hard to distinguish watermarked language model outputs from the model's actual output distribution; and (b) robustness to channels which introduce a constant fraction of adversarial insertions, substitutions, and deletions to the watermarked text. Earlier schemes could only handle stochastic substitutions and deletions, and thus we are aiming for a more natural and appealing robustness guarantee that holds with respect to edit distance. Our main result is a watermarking scheme which achieves both undetectability and robustness to edits when the alphabet size for the language model is allowed to grow as a polynomial in the security parameter. To derive such a scheme, we follow an approach introduced by Christ & Gunn (2024), which proceeds via first constructing pseudorandom codes satisfying undetectability and robustness properties analogous to those above; our key idea is to handle adversarial insertions and deletions by interpreting the symbols as indices into the codeword, which we call indexing pseudorandom codes. Additionally, our codes rely on weaker computational assumptions than used in previous work. Then we show that there is a generic transformation from such codes over large alphabets to watermarking schemes for arbitrary language models.
- Abstract(参考訳): AI生成テキストの検出の問題に触発されて、証明可能な保証付き言語モデルの出力を透かしする問題を考える。
私たちは満足のいく透かしを目指しています。
(a)非検出性(英: undetectability)とは、Christ, Gunn & Zamir (2024)によって導入された暗号概念で、透かし付き言語モデルの出力を実際の出力分布から区別することが計算的に難しいことを規定している。
b) 透かし付きテキストに一定の数の逆挿入、置換、削除をもたらすチャネルに対する堅牢性。
従来のスキームは確率的な置換や削除しか扱えないため、編集距離に関するより自然で魅力的な堅牢性を保証することを目指しています。
我々の主な成果は、言語モデルのアルファベットサイズがセキュリティパラメータの多項式として成長することを許された場合に、編集の不検出性と堅牢性を両立する透かし方式である。
このようなスキームを導出するために、Christ & Gunn (2024) が導入したアプローチは、上記のものと類似した非検出性と堅牢性を満足する擬似乱数符号を最初に構築することで進行する。
さらに、我々の符号は以前の研究よりも弱い計算仮定に依存している。
次に、大文字上のそのような符号から任意の言語モデルのための透かしスキームへの一般的な変換が存在することを示す。
関連論文リスト
- Watermarking Language Models with Error Correcting Codes [41.21656847672627]
本稿では,誤り訂正符号を用いて統計的信号を符号化する透かしフレームワークを提案する。
提案手法は,ロバスト二元符号 (RBC) 透かしと呼ばれ,元の確率分布に比較して歪みは生じない。
私たちの経験的発見は、私たちの透かしは速く、強力で、堅牢であり、最先端のものと好意的に比較していることを示唆しています。
論文 参考訳(メタデータ) (2024-06-12T05:13:09Z) - Watermarking Language Models for Many Adaptive Users [47.90822587139056]
証明可能な保証付き言語モデルの透かし方式について検討する。
モデル生成テキストを個々のユーザに対してトレース可能なマルチユーザ透かしを導入する。
検出不能なChrist, Gunn, Zamir (2024) のゼロビットスキームが適応的に堅牢であることを証明する。
論文 参考訳(メタデータ) (2024-05-17T22:15:30Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Pseudorandom Error-Correcting Codes [0.716879432974126]
暗号置換や削除エラーに対して堅牢な擬似乱数符号を構築します。
ランダムな置換と削除の出力に対する検出不能な透かし方式を提案する。
第2の応用はステガノグラフィーで、秘密のメッセージが無実のコンテンツに隠されている。
論文 参考訳(メタデータ) (2024-02-14T18:17:45Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。