論文の概要: WaterPool: A Watermark Mitigating Trade-offs among Imperceptibility, Efficacy and Robustness
- arxiv url: http://arxiv.org/abs/2405.13517v1
- Date: Wed, 22 May 2024 10:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-25 00:34:02.888893
- Title: WaterPool: A Watermark Mitigating Trade-offs among Imperceptibility, Efficacy and Robustness
- Title(参考訳): WaterPool: 不可避性、効力性、ロバスト性の間のトレードオフを緩和する透かし
- Authors: Baizhou Huang, Xiaojun Wan,
- Abstract要約: 本稿では、キー中心方式を用いて、透かしを2つの異なるモジュールに分解することで既存の透かし技術を統一する。
WaterPoolはシンプルだが効果的なキーモジュールで、インセプティビティによって要求される完全なキーサンプリングスペースを保存し、セマンティクスベースの検索を利用してキー復元プロセスを改善する。
- 参考スコア(独自算出の注目度): 45.27908390001244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing use of large language models (LLMs) in daily life, concerns have emerged regarding their potential misuse and societal impact. Watermarking is proposed to trace the usage of specific models by injecting patterns into their generated texts. An ideal watermark should produce outputs that are nearly indistinguishable from those of the original LLM (imperceptibility), while ensuring a high detection rate (efficacy), even when the text is partially altered (robustness). Despite many methods having been proposed, none have simultaneously achieved all three properties, revealing an inherent trade-off. This paper utilizes a key-centered scheme to unify existing watermarking techniques by decomposing a watermark into two distinct modules: a key module and a mark module. Through this decomposition, we demonstrate for the first time that the key module significantly contributes to the trade-off issues observed in prior methods. Specifically, this reflects the conflict between the scale of the key sampling space during generation and the complexity of key restoration during detection. To this end, we introduce \textbf{WaterPool}, a simple yet effective key module that preserves a complete key sampling space required by imperceptibility while utilizing semantics-based search to improve the key restoration process. WaterPool can integrate with most watermarks, acting as a plug-in. Our experiments with three well-known watermarking techniques show that WaterPool significantly enhances their performance, achieving near-optimal imperceptibility and markedly improving efficacy and robustness (+12.73\% for KGW, +20.27\% for EXP, +7.27\% for ITS).
- Abstract(参考訳): 日常生活における大きな言語モデル(LLM)の利用の増加に伴い、その潜在的な誤用や社会的影響に関する懸念が浮上している。
ウォーターマーキングは、生成されたテキストにパターンを注入することで、特定のモデルの使用をトレースするために提案される。
理想的な透かしは、テキストが部分的に変更されても高い検出率(有効性)を確保しながら、元のLCMとほとんど区別できない出力を生成するべきである。
提案された多くの方法にもかかわらず、同時に3つの特性をすべて達成しておらず、固有のトレードオフが明らかになっている。
本稿では,キーモジュールとマークモジュールの2つの異なるモジュールに透かしを分解することで,既存の透かし技術を統合するために鍵中心方式を用いる。
この分解を通じて、キーモジュールが先行手法で観測されたトレードオフ問題に大きく貢献することを示す。
具体的には、生成中のキーサンプリング空間のスケールと検出時のキー復元の複雑さの矛盾を反映している。
そこで本研究では,キー復元プロセスを改善するためにセマンティクスに基づく探索を活用しながら,非受容性に要求される完全なキーサンプリング空間を保存できる,シンプルで効果的なキーモジュールである \textbf{WaterPool} を紹介する。
WaterPoolは、ほとんどの透かしと統合でき、プラグインとして機能する。
3つの有名な透かし技術を用いた実験により,WaterPoolは性能を著しく向上し,ほぼ最適不受容性を実現し,有効性と堅牢性(KGWは+12.73\%,EXPは+20.27\%,ITSは+7.27\%)を著しく向上した。
関連論文リスト
- Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - Can you Finetune your Binoculars? Embedding Text Watermarks into the Weights of Large Language Models [33.051248579713736]
人間のテキストからAIが生成したコンテンツの識別不可能は、透明性と説明責任の課題を提起する。
本稿では,テキスト生成モデルとして機能し,また検出器として機能する,モデルの低ランクアダプタのペアを微調整する戦略を提案する。
このように、透かし戦略はエンドツーエンドで完全に学習される。
論文 参考訳(メタデータ) (2025-04-08T21:34:02Z) - Let Watermarks Speak: A Robust and Unforgeable Watermark for Language Models [0.0]
検出不能で頑健な単一ビット透かし方式を提案する。
最上級のゼロビット透かし方式に匹敵する堅牢性を持つ。
論文 参考訳(メタデータ) (2024-12-27T11:58:05Z) - WaterPark: A Robustness Assessment of Language Model Watermarking [40.50648910458236]
WaterParkは10の最先端の透かしと12の代表的な攻撃を統合した統合プラットフォームです。
我々は既存の透かしを総合的に評価し、様々な設計選択が攻撃の堅牢性に与える影響を明らかにする。
透かし固有の検出器と一緒にジェネリック検出器を使用することで、脆弱な透かしの安全性が向上する。
論文 参考訳(メタデータ) (2024-11-20T16:09:22Z) - Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。
我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。
実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文 参考訳(メタデータ) (2024-10-04T06:01:27Z) - Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice [35.319577498993354]
大きな言語モデル(LLM)は人間の効率を高めるが、誤用リスクを引き起こす。
本稿では,LLMの透かしのための新しい理論的枠組みを提案する。
我々は,検出性能を最大化するために,透かし方式と検出器の両方を共同で最適化する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [65.11018806214388]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。
検出精度と計算効率のバランスが良くなる。
WaterSeekerのローカライゼーション機能は、解釈可能なAI検出システムの開発をサポートする。
論文 参考訳(メタデータ) (2024-09-08T14:45:47Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。
予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。
これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文 参考訳(メタデータ) (2024-03-09T08:54:52Z) - Proving membership in LLM pretraining data via data watermarks [20.57538940552033]
この研究は、ブラックボックスモデルアクセスのみで原則付き検出を可能にするために、データ透かしを使うことを提案する。
ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。
BLOOM-176Bのトレーニングデータから,少なくとも90回はハッシュを確実に検出できることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:49:27Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - Hybrid Design of Multiplicative Watermarking for Defense Against Malicious Parameter Identification [46.27328641616778]
本稿では,定期的に透かしパラメータを更新するハイブリッド乗算型透かし方式を提案する。
提案手法は,盗聴者による透かしパラメータの再構成を困難にしていることを示す。
論文 参考訳(メタデータ) (2023-09-05T16:56:53Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。