論文の概要: Learning to Watermark LLM-generated Text via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.10553v1
- Date: Wed, 13 Mar 2024 03:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 23:05:08.908294
- Title: Learning to Watermark LLM-generated Text via Reinforcement Learning
- Title(参考訳): 強化学習によるLLM生成テキストの透かし学習
- Authors: Xiaojun Xu, Yuanshun Yao, Yang Liu,
- Abstract要約: 誤用追跡のためのLCM出力の透かしについて検討する。
出力に信号を埋め込むモデルレベルの透かしを設計する。
強化学習に基づく協調学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.61005372279407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to watermark LLM outputs, i.e. embedding algorithmically detectable signals into LLM-generated text to track misuse. Unlike the current mainstream methods that work with a fixed LLM, we expand the watermark design space by including the LLM tuning stage in the watermark pipeline. While prior works focus on token-level watermark that embeds signals into the output, we design a model-level watermark that embeds signals into the LLM weights, and such signals can be detected by a paired detector. We propose a co-training framework based on reinforcement learning that iteratively (1) trains a detector to detect the generated watermarked text and (2) tunes the LLM to generate text easily detectable by the detector while keeping its normal utility. We empirically show that our watermarks are more accurate, robust, and adaptable (to new attacks). It also allows watermarked model open-sourcing. In addition, if used together with alignment, the extra overhead introduced is low - only training an extra reward model (i.e. our detector). We hope our work can bring more effort into studying a broader watermark design that is not limited to working with a fixed LLM. We open-source the code: https://github.com/xiaojunxu/learning-to-watermark-llm .
- Abstract(参考訳): LLM出力のウォーターマーク、すなわちアルゴリズムで検出可能な信号をLLM生成テキストに埋め込んで誤用を追跡する方法について検討する。
固定LLMで動作する現在の主流手法とは異なり、ウォーターマークパイプラインにLLMチューニングステージを組み込むことで、ウォーターマーク設計空間を拡大する。
先行研究は、出力に信号を埋め込むトークンレベルの透かしに焦点を当てていたが、LLM重みに信号を埋め込むモデルレベルの透かしを設計し、そのような信号はペア検出器で検出できる。
筆者らは,(1) 検知器が生成した透かしテキストを検出することを反復的に訓練し,(2) 検出器で検出可能なテキストを正常な実用性を維持しつつ,LLMに調整する,強化学習に基づく協調学習フレームワークを提案する。
私たちの透かしがより正確で、堅牢で、(新たな攻撃に対して)適応可能であることを実証的に示しています。
また、ウォーターマークされたモデルのオープンソース化も可能である。
さらに、アライメントと一緒に使用する場合、導入される余分なオーバーヘッドは低く、追加の報酬モデル(つまり検出器)をトレーニングするのみである。
我々の研究が、固定LLMでの作業に限らず、より広範な透かしデザインの研究により多くの労力をもたらすことを期待しています。
コードをオープンソースにしています。
関連論文リスト
- Topic-based Watermarks for LLM-Generated Text [46.71493672772134]
大規模言語モデル(LLM)のための「トピックベース透かしアルゴリズム」を提案する。
提案アルゴリズムは,入力プロンプトの抽出されたトピックや非透かしLLMの出力に基づいて,透かしLLM出力のトークンを生成する方法を決定する。
論文 参考訳(メタデータ) (2024-04-02T17:49:40Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic
Coherence for Large Language Models [32.914584565739894]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストの意味的整合性の両方を達成するという課題に直面している。
本稿では,トークン固有の透かしロジットと分割比を生成するために,軽量ネットワークを利用した透かしのための新しい多目的最適化(MOO)手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Watermarking Makes Language Models Radioactive [25.33316874135086]
透かし付きトレーニングデータからトレースが検出されやすく、メンバーシップ推論よりもずっと信頼性が高いことが示される。
特に,透かしによる合成指導の訓練は高い信頼性で検出できることを示す。
論文 参考訳(メタデータ) (2024-02-22T18:55:22Z) - FunctionMarker: Watermarking Language Datasets via Knowledge Injection [65.33166992656024]
バックドアベースの透かしは、分類データセットの著作権を保護するための実行可能なアプローチである。
本稿では,知識注入による言語データセットの著作権保護手法であるFunctionMarkerを提案する。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [88.50683534978407]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とする。
本稿では、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽造不可能な検証可能な透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。