論文の概要: A Reinforcement Learning Framework for Robust and Secure LLM Watermarking
- arxiv url: http://arxiv.org/abs/2510.21053v1
- Date: Thu, 23 Oct 2025 23:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.367898
- Title: A Reinforcement Learning Framework for Robust and Secure LLM Watermarking
- Title(参考訳): ロバストかつセキュアなLLM透かしのための強化学習フレームワーク
- Authors: Li An, Yujian Liu, Yepeng Liu, Yuheng Bu, Yang Zhang, Shiyu Chang,
- Abstract要約: 我々は、堅牢でセキュアな透かしのためのエンドツーエンドのRLフレームワークを提案する。
提案手法では,報奨条件にアンカー機構を導入し,安定したトレーニングを確保するとともに,報奨ハックを防止するための追加の正規化条件を導入する。
本手法は,全ての基準において最先端のトレードオフを実現し,他の基準を劣化させることなく,攻撃に対する抵抗性を顕著に改善する。
- 参考スコア(独自算出の注目度): 40.90513051455007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking has emerged as a promising solution for tracing and authenticating text generated by large language models (LLMs). A common approach to LLM watermarking is to construct a green/red token list and assign higher or lower generation probabilities to the corresponding tokens, respectively. However, most existing watermarking algorithms rely on heuristic green/red token list designs, as directly optimizing the list design with techniques such as reinforcement learning (RL) comes with several challenges. First, desirable watermarking involves multiple criteria, i.e., detectability, text quality, robustness against removal attacks, and security against spoofing attacks. Directly optimizing for these criteria introduces many partially conflicting reward terms, leading to an unstable convergence process. Second, the vast action space of green/red token list choices is susceptible to reward hacking. In this paper, we propose an end-to-end RL framework for robust and secure LLM watermarking. Our approach adopts an anchoring mechanism for reward terms to ensure stable training and introduces additional regularization terms to prevent reward hacking. Experiments on standard benchmarks with two backbone LLMs show that our method achieves a state-of-the-art trade-off across all criteria, with notable improvements in resistance to spoofing attacks without degrading other criteria. Our code is available at https://github.com/UCSB-NLP-Chang/RL-watermark.
- Abstract(参考訳): ウォーターマーキングは、大規模言語モデル(LLM)によって生成されたテキストのトレースと認証のための有望なソリューションとして登場した。
LLMウォーターマーキングの一般的なアプローチは、緑/赤のトークンリストを構築し、対応するトークンにそれぞれ上位または下位世代確率を割り当てることである。
しかし、既存の透かしアルゴリズムの多くはヒューリスティックな緑/赤のトークンリスト設計に依存しており、強化学習(RL)のような手法でリスト設計を直接最適化することはいくつかの課題がある。
第一に望ましい透かしは、検出性、テキストの品質、除去攻撃に対する堅牢性、偽造攻撃に対するセキュリティなど、複数の基準を含む。
これらの基準を直接最適化することは、多くの部分的に矛盾する報酬項を導入し、不安定な収束過程をもたらす。
第二に、緑/赤のトークンリストの選択の広大なアクションスペースは、ハッキングに報奨を与える可能性がある。
本稿では,ロバストかつセキュアなLLM透かしのためのエンドツーエンドのRLフレームワークを提案する。
提案手法では,報奨条件にアンカー機構を導入し,安定したトレーニングを確保するとともに,報奨ハックを防止するための追加の正規化条件を導入する。
2つのバックボーンLDMを用いた標準ベンチマーク実験により,本手法は他の基準を劣化させることなく,スプーフィング攻撃に対する耐性が顕著に向上し,すべての基準で最先端のトレードオフを実現することが示された。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/RL-watermarkで公開されています。
関連論文リスト
- Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Invisible Entropy: Towards Safe and Efficient Low-Entropy LLM Watermarking [48.26359966929394]
Invisible Entropy (IE)は、安全性と効率性の両方を高めるために設計された透かしパラダイムである。
IEはパラメータサイズを99%削減し、最先端のメソッドと同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-20T09:19:06Z) - Marking Code Without Breaking It: Code Watermarking for Detecting LLM-Generated Code [8.371877324812505]
我々は,非シンタクティックトークンにのみ透かしを埋め込む構文認識型透かし手法STONEを提案する。
Python、C++、Java全体で、STONEは正確性を保持し、強力な検出可能性を保持し、最小限のオーバーヘッドでバランスの取れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-26T05:46:13Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - A Semantic Invariant Robust Watermark for Large Language Models [27.522264953691746]
以前の透かしアルゴリズムは、攻撃の堅牢性とセキュリティの堅牢性の間のトレードオフに直面していた。
これは、トークンの透かしロジットが、先行するトークンの数によって決定されるためである。
攻撃の堅牢性とセキュリティの堅牢性の両方を提供するLLMのセマンティック不変な透かし手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T06:49:43Z) - SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-06T03:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。