論文の概要: Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach
- arxiv url: http://arxiv.org/abs/2410.02890v5
- Date: Sun, 26 Oct 2025 07:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.30763
- Title: Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach
- Title(参考訳): LLMウォーターマーキングのための理論的基礎的枠組み:分布適応的アプローチ
- Authors: Haiyun He, Yepeng Liu, Ziqiao Wang, Yongyi Mao, Yuheng Bu,
- Abstract要約: 大規模言語モデル(LLM)の透かしのための新しい統一的理論フレームワークを導入する。
本研究の目的は,最悪の偽陽性率(FPR)の制御とテキスト品質の歪みを維持しつつ,検出性能を最大化することである。
モデル非依存と効率性に代えて代理モデルを利用する歪みのない分散適応型透かしアルゴリズム(DAWA)を提案する。
- 参考スコア(独自算出の注目度): 53.32564762183639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking has emerged as a crucial method to distinguish AI-generated text from human-created text. Current watermarking approaches often lack formal optimality guarantees or address the scheme and detector design separately. In this paper, we introduce a novel, unified theoretical framework for watermarking Large Language Models (LLMs) that jointly optimizes both the watermarking scheme and detector. Our approach aims to maximize detection performance while maintaining control over the worst-case false positive rate (FPR) and distortion on text quality. We derive closed-form optimal solutions for this joint design and characterize the fundamental trade-off between watermark detectability and distortion. Notably, we reveal that the optimal watermarking schemes should be adaptive to the LLM's generative distribution. Building on our theoretical insights, we propose a distortion-free, distribution-adaptive watermarking algorithm (DAWA) that leverages a surrogate model for model-agnosticism and efficiency. Experiments on Llama2-13B and Mistral-8$\times$7B models confirm the effectiveness of our approach, particularly at ultra-low FPRs. Our code is available at https://github.com/yepengliu/DAWA.
- Abstract(参考訳): ウォーターマーキングは、AIが生成したテキストと人間の作成したテキストを区別する重要な方法として登場した。
現在の透かし手法は、しばしば正式な最適性保証を欠いているか、スキームと検出器の設計を別々に扱う。
本稿では,透かし方式と検出器の両面を協調的に最適化する大規模言語モデル(LLM)の統一的理論フレームワークを提案する。
本研究の目的は,最悪の偽陽性率(FPR)の制御とテキスト品質の歪みを維持しつつ,検出性能を最大化することである。
この共同設計のための閉形式最適解を導出し、透かし検出性と歪みの基本的なトレードオフを特徴付ける。
特に,最適透かし方式はLLMの生成分布に適応するべきである。
理論的な知見に基づいて,モデル非依存と効率性に代理モデルを活用する,歪みのない分散適応型透かしアルゴリズム (DAWA) を提案する。
Llama2-13B と Mistral-8$\times$7B モデルによる実験により,提案手法の有効性が確認された。
私たちのコードはhttps://github.com/yepengliu/DAWA.comで公開されています。
関連論文リスト
- Optimization-Free Universal Watermark Forgery with Regenerative Diffusion Models [50.73220224678009]
ウォーターマーキングは、人工知能モデルによって生成された合成画像の起源を検証するために使用できる。
近年の研究では, 対象画像から表層画像への透かしを, 対角的手法を用いてフォージできることが示されている。
本稿では,最適化フリーで普遍的な透かし偽造のリスクが大きいことを明らかにする。
我々のアプローチは攻撃範囲を大きく広げ、現在の透かし技術の安全性により大きな課題をもたらす。
論文 参考訳(メタデータ) (2025-06-06T12:08:02Z) - MorphMark: Flexible Adaptive Watermarking for Large Language Models [49.3302421751894]
既存の透かし法は、しばしばジレンマに苦しむ: 透かしの有効性を改善するには、テキストの品質を低下させるコストがかかる。
特定因子の変化に応じて透かし強度を適応的に調整するMorphMark法を開発した。
MorphMarkは、高い柔軟性と時間と空間効率を提供するとともに、有効性の高いジレンマの優れた解決を実現している。
論文 参考訳(メタデータ) (2025-05-14T13:11:16Z) - Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - Can you Finetune your Binoculars? Embedding Text Watermarks into the Weights of Large Language Models [33.051248579713736]
人間のテキストからAIが生成したコンテンツの識別不可能は、透明性と説明責任の課題を提起する。
本稿では,テキスト生成モデルとして機能し,また検出器として機能する,モデルの低ランクアダプタのペアを微調整する戦略を提案する。
このように、透かし戦略はエンドツーエンドで完全に学習される。
論文 参考訳(メタデータ) (2025-04-08T21:34:02Z) - BiMarker: Enhancing Text Watermark Detection for Large Language Models with Bipolar Watermarks [13.741307434082033]
既存の透かし技術は、低い透かし強度と厳しい偽陽性要件に苦しむ。
ツールは生成されたテキストを正極と負極に分割し、追加の計算リソースを必要とせずに検出を強化する。
論文 参考訳(メタデータ) (2025-01-21T14:32:50Z) - GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。
我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。
また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文 参考訳(メタデータ) (2024-11-21T06:06:04Z) - Embedding Watermarks in Diffusion Process for Model Intellectual Property Protection [16.36712147596369]
拡散過程全体に透かしを埋め込むことにより,新しい透かしの枠組みを導入する。
詳細な理論的解析と実験的検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T18:27:10Z) - WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [63.563031923075066]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。
検出精度と計算効率のバランスが良くなる。
論文 参考訳(メタデータ) (2024-09-08T14:45:47Z) - Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。
大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。
制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文 参考訳(メタデータ) (2024-04-28T14:45:53Z) - A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。
枠組みに基づく透かしの最適検出規則を導出する。
論文 参考訳(メタデータ) (2024-04-01T17:03:41Z) - Towards Better Statistical Understanding of Watermarking LLMs [7.68488211412916]
本稿では,大規模言語モデル(LLM)の透かし問題について検討する。
モデル歪みと検出能力のトレードオフと,Kirchenbauer et alのグリーンレッドリストに基づく制約付き最適化問題とみなす。
本稿では,この最適化定式化を考慮したオンライン二重勾配上昇透かしアルゴリズムを開発し,モデル歪みと検出能力の最適性を示す。
論文 参考訳(メタデータ) (2024-03-19T01:57:09Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。
予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。
これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文 参考訳(メタデータ) (2024-03-09T08:54:52Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z) - Reversible Quantization Index Modulation for Static Deep Neural Network
Watermarking [57.96787187733302]
可逆的データ隠蔽法(RDH)は潜在的な解決策を提供するが、既存のアプローチはユーザビリティ、キャパシティ、忠実性の面で弱点に悩まされている。
量子化指数変調(QIM)を用いたRDHに基づく静的DNN透かし手法を提案する。
提案手法は,透かし埋め込みのための1次元量化器に基づく新しい手法を取り入れたものである。
論文 参考訳(メタデータ) (2023-05-29T04:39:17Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。