論文の概要: Topic-Based Watermarks for LLM-Generated Text
- arxiv url: http://arxiv.org/abs/2404.02138v3
- Date: Mon, 19 Aug 2024 17:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:08:08.936484
- Title: Topic-Based Watermarks for LLM-Generated Text
- Title(参考訳): LLMテキストのためのトピックベースの透かし
- Authors: Alexander Nemecek, Yuzhou Jiang, Erman Ayday,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のためのトピックベースの新しい透かしアルゴリズムを提案する。
トピック固有のトークンバイアスを使用することで、生成されたテキストにトピック依存の透かしを埋め込む。
提案手法は,テキストトピックを99.99%の信頼度で分類する。
- 参考スコア(独自算出の注目度): 46.71493672772134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The indistinguishability of text generated by large language models (LLMs) from human-generated text poses significant challenges. Watermarking algorithms are potential solutions by embedding detectable signatures within LLM-generated outputs. However, current watermarking schemes lack robustness to a range of attacks such as text substitution or manipulation, undermining their reliability. This paper proposes a novel topic-based watermarking algorithm for LLMs, designed to enhance the robustness of watermarking in LLMs. Our approach leverages the topics extracted from input prompts or outputs of non-watermarked LLMs in the generation process of watermarked text. We dynamically utilize token lists on identified topics and adjust token sampling weights accordingly. By using these topic-specific token biases, we embed a topic-sensitive watermarking into the generated text. We outline the theoretical framework of our topic-based watermarking algorithm and discuss its potential advantages in various scenarios. Additionally, we explore a comprehensive range of attacks against watermarking algorithms, including discrete alterations, paraphrasing, and tokenizations. We demonstrate that our proposed watermarking scheme classifies various watermarked text topics with 99.99% confidence and outperforms existing algorithms in terms of z-score robustness and the feasibility of modeling text degradation by potential attackers, while considering the trade-offs between the benefits and losses of watermarking LLM-generated text.
- Abstract(参考訳): ヒト生成テキストから大言語モデル(LLM)が生成するテキストの不明瞭さは大きな課題である。
ウォーターマーキングアルゴリズムは、LLM生成出力に検出可能なシグネチャを埋め込むことによって、潜在的な解決策である。
しかし、現在の透かし方式は、テキスト置換や操作のような様々な攻撃に対して堅牢性に欠けており、信頼性を損なう。
本稿では, LLMにおける透かしの堅牢性を高めるために, LLMのためのトピックベースの新しい透かしアルゴリズムを提案する。
提案手法は,透かし付きテキストの生成過程において,非透かし付きLPMの入力プロンプトや出力から抽出したトピックを利用する。
特定トピックのトークンリストを動的に活用し,それに応じてトークンサンプリング重量を調整する。
これらのトピック固有のトークンバイアスを使用することで、生成されたテキストにトピック依存の透かしを埋め込む。
トピックベースの透かしアルゴリズムの理論的枠組みを概説し、様々なシナリオにおける潜在的な利点について論じる。
さらに、離散的な変更、パラフレーズ化、トークン化を含む、ウォーターマーキングアルゴリズムに対する包括的攻撃について検討する。
提案手法は,LLM生成テキストの利点と損失のトレードオフを考慮しつつ,zスコアの堅牢性と潜在的な攻撃者によるテキスト劣化のモデル化の実現可能性の観点から,既存のアルゴリズムよりも99.99%の信頼度で様々な透かしテキストトピックを分類する。
関連論文リスト
- Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - MarkLLM: An Open-Source Toolkit for LLM Watermarking [59.49254978305491]
MarkLLMは、LLMウォーターマーキングアルゴリズムを実装するためのオープンソースのツールキットである。
評価のために、MarkLLMは3つの視点にまたがる12のツールと、2種類の自動評価パイプラインを提供する。
論文 参考訳(メタデータ) (2024-05-16T12:40:01Z) - Learning to Watermark LLM-generated Text via Reinforcement Learning [16.61005372279407]
誤用追跡のためのLCM出力の透かしについて検討する。
出力に信号を埋め込むモデルレベルの透かしを設計する。
強化学習に基づく協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T03:43:39Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - Necessary and Sufficient Watermark for Large Language Models [31.933103173481964]
本稿では,テキストの品質を劣化させることなく,生成されたテキストに透かしを挿入するための,必要かつ十分な透かし(NS-Watermark)を提案する。
NS-Watermarkは既存の透かしよりも自然なテキストを生成することができることを示す。
特に機械翻訳タスクでは、NS-Watermarkは既存の透かし法を最大30BLEUスコアで上回ることができる。
論文 参考訳(メタデータ) (2023-10-02T00:48:51Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。