論文の概要: Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice
- arxiv url: http://arxiv.org/abs/2410.02890v2
- Date: Thu, 10 Oct 2024 06:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 05:14:45.890628
- Title: Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice
- Title(参考訳): LLMのための普遍的最適透かし方式:理論から実践へ
- Authors: Haiyun He, Yepeng Liu, Ziqiao Wang, Yongyi Mao, Yuheng Bu,
- Abstract要約: 大きな言語モデル(LLM)は人間の効率を高めるが、誤用リスクを引き起こす。
本稿では,LLMの透かしのための新しい理論的枠組みを提案する。
我々は,検出性能を最大化するために,透かし方式と検出器の両方を共同で最適化する。
- 参考スコア(独自算出の注目度): 35.319577498993354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) boosts human efficiency but also poses misuse risks, with watermarking serving as a reliable method to differentiate AI-generated content from human-created text. In this work, we propose a novel theoretical framework for watermarking LLMs. Particularly, we jointly optimize both the watermarking scheme and detector to maximize detection performance, while controlling the worst-case Type-I error and distortion in the watermarked text. Within our framework, we characterize the universally minimum Type-II error, showing a fundamental trade-off between detection performance and distortion. More importantly, we identify the optimal type of detectors and watermarking schemes. Building upon our theoretical analysis, we introduce a practical, model-agnostic and computationally efficient token-level watermarking algorithm that invokes a surrogate model and the Gumbel-max trick. Empirical results on Llama-13B and Mistral-8$\times$7B demonstrate the effectiveness of our method. Furthermore, we also explore how robustness can be integrated into our theoretical framework, which provides a foundation for designing future watermarking systems with improved resilience to adversarial attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)は人間の効率を高めるが、誤用リスクも生じ、透かしはAI生成したコンテンツを人間の作成したテキストと区別するための信頼性の高い方法として機能する。
本研究では,LLMの透かしのための新しい理論的枠組みを提案する。
特に,電子透かし方式と検出器を併用して検出性能を最大化するとともに,透かしテキストの最悪のタイプI誤差と歪みを制御した。
フレームワーク内では,最小限のType-IIエラーを特徴付け,検出性能と歪みの基本的なトレードオフを示す。
さらに重要なことは、最適な検出器の種類と透かし方式を特定することである。
理論解析に基づいて,代用モデルとGumbel-maxトリックを起動する,実用的で,モデルに依存しない,かつ,計算的に効率的なトークンレベルの透かしアルゴリズムを導入する。
Llama-13BとMistral-8$\times$7Bの実証実験により,本手法の有効性が示された。
さらに,我々の理論的枠組みにロバスト性を組み込むことによって,敵攻撃に対するレジリエンスを改善した将来の透かしシステムを設計するための基盤を提供する。
関連論文リスト
- GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。
我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。
また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文 参考訳(メタデータ) (2024-11-21T06:06:04Z) - WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [63.563031923075066]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。
検出精度と計算効率のバランスが良くなる。
論文 参考訳(メタデータ) (2024-09-08T14:45:47Z) - Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。
大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。
制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文 参考訳(メタデータ) (2024-04-28T14:45:53Z) - A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。
枠組みに基づく透かしの最適検出規則を導出する。
論文 参考訳(メタデータ) (2024-04-01T17:03:41Z) - Towards Better Statistical Understanding of Watermarking LLMs [7.68488211412916]
本稿では,大規模言語モデル(LLM)の透かし問題について検討する。
モデル歪みと検出能力のトレードオフと,Kirchenbauer et alのグリーンレッドリストに基づく制約付き最適化問題とみなす。
本稿では,この最適化定式化を考慮したオンライン二重勾配上昇透かしアルゴリズムを開発し,モデル歪みと検出能力の最適性を示す。
論文 参考訳(メタデータ) (2024-03-19T01:57:09Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。