論文の概要: Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach
- arxiv url: http://arxiv.org/abs/2410.02890v4
- Date: Wed, 19 Feb 2025 18:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:27.671551
- Title: Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach
- Title(参考訳): LLMウォーターマーキングのための理論的基礎的枠組み:分布適応的アプローチ
- Authors: Haiyun He, Yepeng Liu, Ziqiao Wang, Yongyi Mao, Yuheng Bu,
- Abstract要約: 大規模言語モデル(LLM)の透かしのための新しい理論的枠組みを提案する。
本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。
本稿では,Gumbel-max の手法と並行してサロゲートモデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 35.319577498993354
- License:
- Abstract: Watermarking has emerged as a crucial method to distinguish AI-generated text from human-created text. In this paper, we present a novel theoretical framework for watermarking Large Language Models (LLMs) that jointly optimizes both the watermarking scheme and the detection process. Our approach focuses on maximizing detection performance while maintaining control over the worst-case Type-I error and text distortion. We characterize \emph{the universally minimum Type-II error}, showing a fundamental trade-off between watermark detectability and text distortion. Importantly, we identify that the optimal watermarking schemes are adaptive to the LLM generative distribution. Building on our theoretical insights, we propose an efficient, model-agnostic, distribution-adaptive watermarking algorithm, utilizing a surrogate model alongside the Gumbel-max trick. Experiments conducted on Llama2-13B and Mistral-8$\times$7B models confirm the effectiveness of our approach. Additionally, we examine incorporating robustness into our framework, paving a way to future watermarking systems that withstand adversarial attacks more effectively.
- Abstract(参考訳): ウォーターマーキングは、AIが生成したテキストと人間の作成したテキストを区別する重要な方法として登場した。
本稿では,透かし方式と検出過程の両面を協調的に最適化する大規模言語モデル(LLM)に関する新しい理論的枠組みを提案する。
本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。
We characterizedize \emph{the universally minimum Type-II error, showed a fundamental trade-off between watermark detectability and text distortion。
重要なことは、最適透かし方式がLLM生成分布に適応していることである。
理論的な知見に基づいて,Gumbel-max トリックと並行して代理モデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。
Llama2-13BとMistral-8$\times$7Bで行った実験により,本手法の有効性が確認された。
さらに,我々の枠組みにロバスト性を導入し,敵の攻撃に耐える将来の透かしシステムへの道を開いた。
関連論文リスト
- Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。
我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。
また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文 参考訳(メタデータ) (2024-11-21T06:06:04Z) - Embedding Watermarks in Diffusion Process for Model Intellectual Property Protection [16.36712147596369]
拡散過程全体に透かしを埋め込むことにより,新しい透かしの枠組みを導入する。
詳細な理論的解析と実験的検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T18:27:10Z) - Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。
大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。
制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文 参考訳(メタデータ) (2024-04-28T14:45:53Z) - A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。
枠組みに基づく透かしの最適検出規則を導出する。
論文 参考訳(メタデータ) (2024-04-01T17:03:41Z) - Towards Better Statistical Understanding of Watermarking LLMs [7.68488211412916]
本稿では,大規模言語モデル(LLM)の透かし問題について検討する。
モデル歪みと検出能力のトレードオフと,Kirchenbauer et alのグリーンレッドリストに基づく制約付き最適化問題とみなす。
本稿では,この最適化定式化を考慮したオンライン二重勾配上昇透かしアルゴリズムを開発し,モデル歪みと検出能力の最適性を示す。
論文 参考訳(メタデータ) (2024-03-19T01:57:09Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Reversible Quantization Index Modulation for Static Deep Neural Network
Watermarking [57.96787187733302]
可逆的データ隠蔽法(RDH)は潜在的な解決策を提供するが、既存のアプローチはユーザビリティ、キャパシティ、忠実性の面で弱点に悩まされている。
量子化指数変調(QIM)を用いたRDHに基づく静的DNN透かし手法を提案する。
提案手法は,透かし埋め込みのための1次元量化器に基づく新しい手法を取り入れたものである。
論文 参考訳(メタデータ) (2023-05-29T04:39:17Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。