論文の概要: WatME: Towards Lossless Watermarking Through Lexical Redundancy
- arxiv url: http://arxiv.org/abs/2311.09832v2
- Date: Fri, 16 Feb 2024 14:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:57:46.439212
- Title: WatME: Towards Lossless Watermarking Through Lexical Redundancy
- Title(参考訳): WatME: レキシカル冗長性による無意味な透かしを目指して
- Authors: Liang Chen, Yatao Bian, Yang Deng, Deng Cai, Shuaiyi Li, Peilin Zhao,
Kam-fai Wong
- Abstract要約: 相互排他型透かし(WatME)という新しいアプローチを導入する。
WatMEは、言語モデルの復号過程において利用可能な語彙の使用を動的に最適化する。
本稿では,WatMEが大規模言語モデルのテキスト生成能力を大幅に維持していることを示す理論的解析と実証的証拠を示す。
- 参考スコア(独自算出の注目度): 61.55924872561569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text watermarking has emerged as an important technique for detecting
machine-generated text. However, existing methods generally use arbitrary
vocabulary partitioning during decoding, which results in the absence of
appropriate words during the response generation and disrupts the language
model's expressiveness, thus severely degrading the quality of text response.
To address these issues, we introduce a novel approach, Watermarking with
Mutual Exclusion (WatME). Specifically, by leveraging linguistic prior
knowledge of inherent lexical redundancy, WatME can dynamically optimize the
use of available vocabulary during the decoding process of language models. It
employs a mutually exclusive rule to manage this redundancy, avoiding
situations where appropriate words are unavailable and maintaining the
expressive power of large language models (LLMs). We present theoretical
analysis and empirical evidence demonstrating that WatME substantially
preserves the text generation ability of LLMs while maintaining watermark
detectability. Specifically, we investigate watermarking's impact on the
emergent abilities of LLMs, including knowledge recall and logical reasoning.
Our comprehensive experiments confirm that WatME consistently outperforms
existing methods in retaining these crucial capabilities of LLMs. Our code will
be released to facilitate future research.
- Abstract(参考訳): テキスト透かしは機械生成テキストを検出する重要な技術として出現した。
しかし、既存の手法では、デコード中に任意の語彙分割を使い、その結果、応答生成中に適切な単語が無くなり、言語モデルの表現力が損なわれ、テキスト応答の品質が著しく低下する。
これらの問題に対処するため、我々はWatME(Watmarking with Mutual Exclusion)という新しいアプローチを導入する。
具体的には、固有語彙冗長性の言語的事前知識を活用することで、WatMEは言語モデルの復号過程において利用可能な語彙の使用を動的に最適化することができる。
この冗長性を管理するために相互排他的なルールを採用し、適切な単語が使用できない状況を避け、大言語モデル(llm)の表現力を維持する。
本稿では,WatMEが透かし検出性を維持しつつ,LLMのテキスト生成能力を著しく維持していることを示す理論的解析と実証的証拠を示す。
具体的には,知識リコールや論理推論などllmの創発的能力に対するウォーターマーキングの影響について検討する。
我々の総合的な実験により、WatMEはLLMのこれらの重要な機能を維持する上で、既存の方法よりも一貫して優れています。
私たちのコードは将来の研究を促進するためにリリースされます。
関連論文リスト
- Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Topic-Based Watermarks for LLM-Generated Text [46.71493672772134]
本稿では,大規模言語モデル(LLM)のためのトピックベースの新しい透かしアルゴリズムを提案する。
トピック固有のトークンバイアスを使用することで、生成されたテキストにトピック依存の透かしを埋め込む。
提案手法は,テキストトピックを99.99%の信頼度で分類する。
論文 参考訳(メタデータ) (2024-04-02T17:49:40Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。