論文の概要: Invisible Entropy: Towards Safe and Efficient Low-Entropy LLM Watermarking
- arxiv url: http://arxiv.org/abs/2505.14112v1
- Date: Tue, 20 May 2025 09:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.961417
- Title: Invisible Entropy: Towards Safe and Efficient Low-Entropy LLM Watermarking
- Title(参考訳): 可視エントロピー:安全かつ効率的な低エントロピーLCM透かし
- Authors: Tianle Gu, Zongqi Wang, Kexin Huang, Yuanqi Yao, Xiangliang Zhang, Yujiu Yang, Xiuying Chen,
- Abstract要約: Invisible Entropy (IE)は、安全性と効率性の両方を高めるために設計された透かしパラダイムである。
IEはパラメータサイズを99%削減し、最先端のメソッドと同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 48.26359966929394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logit-based LLM watermarking traces and verifies AI-generated content by maintaining green and red token lists and increasing the likelihood of green tokens during generation. However, it fails in low-entropy scenarios, where predictable outputs make green token selection difficult without disrupting natural text flow. Existing approaches address this by assuming access to the original LLM to calculate entropy and selectively watermark high-entropy tokens. However, these methods face two major challenges: (1) high computational costs and detection delays due to reliance on the original LLM, and (2) potential risks of model leakage. To address these limitations, we propose Invisible Entropy (IE), a watermarking paradigm designed to enhance both safety and efficiency. Instead of relying on the original LLM, IE introduces a lightweight feature extractor and an entropy tagger to predict whether the entropy of the next token is high or low. Furthermore, based on theoretical analysis, we develop a threshold navigator that adaptively sets entropy thresholds. It identifies a threshold where the watermark ratio decreases as the green token count increases, enhancing the naturalness of the watermarked text and improving detection robustness. Experiments on HumanEval and MBPP datasets demonstrate that IE reduces parameter size by 99\% while achieving performance on par with state-of-the-art methods. Our work introduces a safe and efficient paradigm for low-entropy watermarking. https://github.com/Carol-gutianle/IE https://huggingface.co/datasets/Carol0110/IE-Tagger
- Abstract(参考訳): ログベースのLLMウォーターマーキングは、緑と赤のトークンリストを維持し、生成中のグリーントークンの可能性を高めることによって、AI生成コンテンツをトレースし、検証する。
しかし、予測可能な出力が自然のテキストフローを乱すことなくグリーントークンの選択を難しくする低エントロピーのシナリオでは失敗する。
既存のアプローチでは、エントロピーを計算し、選択的にハイエントロピートークンを透かし、元のLLMへのアクセスを仮定することでこの問題に対処している。
しかし, これらの手法は, 1) 計算コストの増大と, 元のLCMに依存した検出遅延, (2) モデル漏洩の潜在的なリスクの2つの大きな課題に直面している。
これらの制約に対処するために,安全と効率の両立を図った透かしパラダイムである可視エントロピー(IE)を提案する。
オリジナルのLLMに頼る代わりに、IEは軽量な特徴抽出器とエントロピータグを導入し、次のトークンのエントロピーが高いか低いかを予測する。
さらに,理論解析に基づいて,エントロピー閾値を適応的に設定するしきい値ナビゲータを開発した。
グリーントークン数の増加に伴って透かし比が減少する閾値を特定し、透かしテキストの自然性を高め、検出堅牢性を向上させる。
HumanEvalとMBPPデータセットの実験では、IEはパラメータサイズを99\%削減し、最先端のメソッドと同等のパフォーマンスを実現している。
我々の研究は、低エントロピー透かしのための安全で効率的なパラダイムを導入している。
https://github.com/Carol-gutianle/IE https://huggingface.co/datasets/Carol0110/IE-Tagger
関連論文リスト
- Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - An Entropy-based Text Watermarking Detection Method [41.40123238040657]
トークンエントロピーの影響は、透かし検出プロセスにおいて完全に考慮すべきである。
我々は,textbfEntropy-based TextbfWatermarking textbfEWD (textbfEWD)を提案する。
論文 参考訳(メタデータ) (2024-03-20T10:40:01Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。