論文の概要: SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text
Generation
- arxiv url: http://arxiv.org/abs/2310.03991v1
- Date: Fri, 6 Oct 2023 03:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 03:31:04.456863
- Title: SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text
Generation
- Title(参考訳): SemStamp: テキスト生成のためのパラフレーズロバストなセマンティックな透かし
- Authors: Abe Bohan Hou, Jingyu Zhang, Tianxing He, Yichen Wang, Yung-Sung
Chuang, Hongwei Wang, Lingfeng Shen, Benjamin Van Durme, Daniel Khashabi, and
Yulia Tsvetkov
- Abstract要約: 既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
- 参考スコア(独自算出の注目度): 72.10931780019297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing watermarking algorithms are vulnerable to paraphrase attacks because
of their token-level design. To address this issue, we propose SemStamp, a
robust sentence-level semantic watermarking algorithm based on
locality-sensitive hashing (LSH), which partitions the semantic space of
sentences. The algorithm encodes and LSH-hashes a candidate sentence generated
by an LLM, and conducts sentence-level rejection sampling until the sampled
sentence falls in watermarked partitions in the semantic embedding space. A
margin-based constraint is used to enhance its robustness. To show the
advantages of our algorithm, we propose a "bigram" paraphrase attack using the
paraphrase that has the fewest bigram overlaps with the original sentence. This
attack is shown to be effective against the existing token-level watermarking
method. Experimental results show that our novel semantic watermark algorithm
is not only more robust than the previous state-of-the-art method on both
common and bigram paraphrase attacks, but also is better at preserving the
quality of generation.
- Abstract(参考訳): 既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
この問題に対処するために,文の意味空間を分割する局所性感性ハッシュ(LSH)に基づく頑健な文レベルの意味的透かしアルゴリズムSemStampを提案する。
アルゴリズムはLLMによって生成された候補文を符号化してLSH化し、サンプルされた文がセマンティック埋め込み空間のウォーターマークされたパーティションに落ちるまで文レベルの拒絶サンプリングを行う。
マージンベースの制約は、その堅牢性を高めるために使用される。
本アルゴリズムの利点を示すために,最少のビッグラムが元の文と重複するパラフレーズを用いた「ビグラム」パラフレーズ攻撃を提案する。
この攻撃は既存のトークンレベルの透かし法に対して有効であることが示されている。
実験結果から,本手法は,従来法とbigramparaphrase法の両方において,従来法よりも頑健なだけでなく,生成品質の維持にも優れていることがわかった。
関連論文リスト
- Token-Specific Watermarking with Enhanced Detectability and Semantic
Coherence for Large Language Models [32.914584565739894]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストの意味的整合性の両方を達成するという課題に直面している。
本稿では,トークン固有の透かしロジットと分割比を生成するために,軽量ネットワークを利用した透かしのための新しい多目的最適化(MOO)手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - k-SemStamp: A Clustering-Based Semantic Watermark for Detection of
Machine-Generated Text [25.175695363041747]
k-SemStampは、SemStampのシンプルで効果的な拡張であり、LSHの代替としてk-meansクラスタリングを利用して、固有の意味構造を意識して埋め込み空間を分割する。
実験結果から、k-SemStampは、生成品質を維持しながら、その堅牢性とサンプリング効率を良好に向上し、機械生成テキスト検出のためのより効果的なツールを進歩させることが示された。
論文 参考訳(メタデータ) (2024-02-17T22:50:38Z) - DiPmark: A Stealthy, Efficient and Resilient Watermark for Large
Language Models [71.49654786784713]
電子透かしのための分布保存型透かし(DiP)を提案する。
提案したDiPmarkは、透かし(ステルス)中の元のトークン分布を保存し、言語モデルAPIやウェイト(効率)にアクセスせずに検出可能であり、トークンの適度な変更(レジリエント)に対して堅牢である。
これは、コンテキストに基づいてユニークなtextiti.i.d.暗号を割り当てるハッシュ関数と組み合わさって、新しいreweight戦略を導入することで達成される。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - A Semantic Invariant Robust Watermark for Large Language Models [29.52715060360837]
大規模言語モデル(LLM)に対する意味不変な透かし手法を提案する。
私たちの研究における透かしのロジットは、前のトークンのセマンティクスによって決定されます。
私たちの透かしには適切なセキュリティの堅牢性があることも示しています。
論文 参考訳(メタデータ) (2023-10-10T06:49:43Z) - Who Wrote this Code? Watermarking for Code Generation [55.54239495289517]
エントロピー閾値(SWEET)を用いた新しい透かし手法Selective WatErmarkingを提案する。
SWEETは、生成中のトークン分布のエントロピーが高い位置にのみ「グリーン」トークンをプロモートすることで、生成されたコードの正確性を維持する。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Revisiting Paraphrase Question Generator using Pairwise Discriminator [25.449902612898594]
文レベルの埋め込みを得るための新しい手法を提案する。
提案手法は, 意味的埋め込みを行い, パラフレーズ生成および感情分析タスクにおける最先端技術よりも優れる。
論文 参考訳(メタデータ) (2019-12-31T02:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。