論文の概要: Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice
- arxiv url: http://arxiv.org/abs/2410.02890v2
- Date: Thu, 10 Oct 2024 06:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 05:14:45.890628
- Title: Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice
- Title(参考訳): LLMのための普遍的最適透かし方式:理論から実践へ
- Authors: Haiyun He, Yepeng Liu, Ziqiao Wang, Yongyi Mao, Yuheng Bu,
- Abstract要約: 大きな言語モデル(LLM)は人間の効率を高めるが、誤用リスクを引き起こす。
本稿では,LLMの透かしのための新しい理論的枠組みを提案する。
我々は,検出性能を最大化するために,透かし方式と検出器の両方を共同で最適化する。
- 参考スコア(独自算出の注目度): 35.319577498993354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) boosts human efficiency but also poses misuse risks, with watermarking serving as a reliable method to differentiate AI-generated content from human-created text. In this work, we propose a novel theoretical framework for watermarking LLMs. Particularly, we jointly optimize both the watermarking scheme and detector to maximize detection performance, while controlling the worst-case Type-I error and distortion in the watermarked text. Within our framework, we characterize the universally minimum Type-II error, showing a fundamental trade-off between detection performance and distortion. More importantly, we identify the optimal type of detectors and watermarking schemes. Building upon our theoretical analysis, we introduce a practical, model-agnostic and computationally efficient token-level watermarking algorithm that invokes a surrogate model and the Gumbel-max trick. Empirical results on Llama-13B and Mistral-8$\times$7B demonstrate the effectiveness of our method. Furthermore, we also explore how robustness can be integrated into our theoretical framework, which provides a foundation for designing future watermarking systems with improved resilience to adversarial attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)は人間の効率を高めるが、誤用リスクも生じ、透かしはAI生成したコンテンツを人間の作成したテキストと区別するための信頼性の高い方法として機能する。
本研究では,LLMの透かしのための新しい理論的枠組みを提案する。
特に,電子透かし方式と検出器を併用して検出性能を最大化するとともに,透かしテキストの最悪のタイプI誤差と歪みを制御した。
フレームワーク内では,最小限のType-IIエラーを特徴付け,検出性能と歪みの基本的なトレードオフを示す。
さらに重要なことは、最適な検出器の種類と透かし方式を特定することである。
理論解析に基づいて,代用モデルとGumbel-maxトリックを起動する,実用的で,モデルに依存しない,かつ,計算的に効率的なトークンレベルの透かしアルゴリズムを導入する。
Llama-13BとMistral-8$\times$7Bの実証実験により,本手法の有効性が示された。
さらに,我々の理論的枠組みにロバスト性を組み込むことによって,敵攻撃に対するレジリエンスを改善した将来の透かしシステムを設計するための基盤を提供する。
関連論文リスト
- Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。
我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。
また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文 参考訳(メタデータ) (2024-11-21T06:06:04Z) - Embedding Watermarks in Diffusion Process for Model Intellectual Property Protection [16.36712147596369]
拡散過程全体に透かしを埋め込むことにより,新しい透かしの枠組みを導入する。
詳細な理論的解析と実験的検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T18:27:10Z) - Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。
大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。
制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文 参考訳(メタデータ) (2024-04-28T14:45:53Z) - A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。
枠組みに基づく透かしの最適検出規則を導出する。
論文 参考訳(メタデータ) (2024-04-01T17:03:41Z) - Towards Better Statistical Understanding of Watermarking LLMs [7.68488211412916]
本稿では,大規模言語モデル(LLM)の透かし問題について検討する。
モデル歪みと検出能力のトレードオフと,Kirchenbauer et alのグリーンレッドリストに基づく制約付き最適化問題とみなす。
本稿では,この最適化定式化を考慮したオンライン二重勾配上昇透かしアルゴリズムを開発し,モデル歪みと検出能力の最適性を示す。
論文 参考訳(メタデータ) (2024-03-19T01:57:09Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Reversible Quantization Index Modulation for Static Deep Neural Network
Watermarking [57.96787187733302]
可逆的データ隠蔽法(RDH)は潜在的な解決策を提供するが、既存のアプローチはユーザビリティ、キャパシティ、忠実性の面で弱点に悩まされている。
量子化指数変調(QIM)を用いたRDHに基づく静的DNN透かし手法を提案する。
提案手法は,透かし埋め込みのための1次元量化器に基づく新しい手法を取り入れたものである。
論文 参考訳(メタデータ) (2023-05-29T04:39:17Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。