論文の概要: Provable Robust Watermarking for AI-Generated Text
- arxiv url: http://arxiv.org/abs/2306.17439v2
- Date: Fri, 13 Oct 2023 04:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:25:41.612071
- Title: Provable Robust Watermarking for AI-Generated Text
- Title(参考訳): AI生成テキストのロバストな透かし
- Authors: Xuandong Zhao, Prabhanjan Ananth, Lei Li, Yu-Xiang Wang
- Abstract要約: We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
- 参考スコア(独自算出の注目度): 41.5510809722375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of watermarking large language models (LLMs) generated
text -- one of the most promising approaches for addressing the safety
challenges of LLM usage. In this paper, we propose a rigorous theoretical
framework to quantify the effectiveness and robustness of LLM watermarks. We
propose a robust and high-quality watermark method, Unigram-Watermark, by
extending an existing approach with a simplified fixed grouping strategy. We
prove that our watermark method enjoys guaranteed generation quality,
correctness in watermark detection, and is robust against text editing and
paraphrasing. Experiments on three varying LLMs and two datasets verify that
our Unigram-Watermark achieves superior detection accuracy and comparable
generation quality in perplexity, thus promoting the responsible use of LLMs.
Code is available at https://github.com/XuandongZhao/Unigram-Watermark.
- Abstract(参考訳): LLM使用時の安全性問題に対処するための最も有望なアプローチの1つとして,大言語モデル(LLM)生成テキストの透かしについて検討する。
本稿では,LLM透かしの有効性とロバスト性を定量化する厳密な理論的枠組みを提案する。
固定グループ化戦略を簡略化した既存手法を拡張し,堅牢で高品質な透かし手法Unigram-Watermarkを提案する。
本手法は,生成品質の保証,透かし検出の正確性,テキスト編集やパラフレージングに頑健であることを証明する。
3つの異なるLLMと2つのデータセットの実験により、我々のUnigram-Watermarkは、パープレキシティにおいて優れた検出精度と同等な生成品質を実現し、LCMの責任ある利用を促進する。
コードはhttps://github.com/XuandongZhao/Unigram-Watermarkで入手できる。
関連論文リスト
- Token-Specific Watermarking with Enhanced Detectability and Semantic
Coherence for Large Language Models [32.914584565739894]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストの意味的整合性の両方を達成するという課題に直面している。
本稿では,トークン固有の透かしロジットと分割比を生成するために,軽量ネットワークを利用した透かしのための新しい多目的最適化(MOO)手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Adaptive Text Watermark for Large Language Models [9.569222603139332]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - WaterBench: Towards Holistic Evaluation of Watermarks for Large Language
Models [51.06949065544253]
本稿ではLLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介する。
私たちは3つの重要な要素を設計します。
textbftaskの選択には、入力と出力の長さを多様化して、9ドルのタスクをカバーする5つのカテゴリの分類を作成します。
テキスト評価基準では,透かし後の指示追従能力の低下を自動的に評価するために GPT4-Judge を用いる。
論文 参考訳(メタデータ) (2023-11-13T08:09:01Z) - Necessary and Sufficient Watermark for Large Language Models [31.933103173481964]
本稿では,テキストの品質を劣化させることなく,生成されたテキストに透かしを挿入するための,必要かつ十分な透かし(NS-Watermark)を提案する。
NS-Watermarkは既存の透かしよりも自然なテキストを生成することができることを示す。
特に機械翻訳タスクでは、NS-Watermarkは既存の透かし法を最大30BLEUスコアで上回ることができる。
論文 参考訳(メタデータ) (2023-10-02T00:48:51Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。