論文の概要: More Haste, Less Speed: Weaker Single-Layer Watermark Improves Distortion-Free Watermark Ensembles
- arxiv url: http://arxiv.org/abs/2602.11793v1
- Date: Thu, 12 Feb 2026 10:18:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.765335
- Title: More Haste, Less Speed: Weaker Single-Layer Watermark Improves Distortion-Free Watermark Ensembles
- Title(参考訳): シングルレイヤーのウォーターマークは歪みのないウォーターマークのアンサンブルを改良
- Authors: Ruibo Chen, Yihan Wu, Xuehao Cui, Jingqi Zhang, Heng Huang,
- Abstract要約: 強い透かしがトークン分布のエントロピーを著しく減少させることを示す。
本稿では,より弱い単一層透かしを用いて,効率的なマルチ層アンサンブルに必要なエントロピーを保存するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 58.941305935872265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking has emerged as a crucial technique for detecting and attributing content generated by large language models. While recent advancements have utilized watermark ensembles to enhance robustness, prevailing methods typically prioritize maximizing the strength of the watermark at every individual layer. In this work, we identify a critical limitation in this "stronger-is-better" approach: strong watermarks significantly reduce the entropy of the token distribution, which paradoxically weakens the effectiveness of watermarking in subsequent layers. We theoretically and empirically show that detectability is bounded by entropy and that watermark ensembles induce a monotonic decrease in both entropy and the expected green-list ratio across layers. To address this inherent trade-off, we propose a general framework that utilizes weaker single-layer watermarks to preserve the entropy required for effective multi-layer ensembling. Empirical evaluations demonstrate that this counter-intuitive strategy mitigates signal decay and consistently outperforms strong baselines in both detectability and robustness.
- Abstract(参考訳): ウォーターマーキングは、大規模言語モデルによって生成されたコンテンツを検出し、寄与する重要な技術として登場した。
近年の進歩では、透かしのアンサンブルを利用して堅牢性を高めているが、一般的な手法では各層における透かしの強さを最大化することが優先されている。
強い透かしはトークン分布のエントロピーを著しく減少させ、その後の層における透かしの有効性をパラドックス的に弱める。
理論的および実験的に、検出性はエントロピーによって束縛され、透かしアンサンブルはエントロピーと期待されるグリーンリスト比の両方の単調な減少を誘導することを示した。
そこで本研究では, より弱い単一層透かしを用いて, 効果的なマルチ層アンサンブルに必要なエントロピーを維持するための一般的な枠組みを提案する。
実証的な評価は、この反直観的戦略が信号減衰を緩和し、検出性と堅牢性の両方において強いベースラインを一貫して上回っていることを示している。
関連論文リスト
- Improve the Trade-off Between Watermark Strength and Speculative Sampling Efficiency for Language Models [18.988823703120865]
投機的サンプリングは推論を加速し、受容率が増加するにつれて効率が向上する。
高い透かし強度は受け入れを減らし、同時に達成するのを防ぐ。
本稿では,トークンが擬似乱数の決定論的関数である場合に最大化される統計的検出可能性を管理する透かし強度の測定手法を提案する。
論文 参考訳(メタデータ) (2026-02-01T20:30:59Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity [31.666430190864947]
我々はHermitian Symmetric Fourier Watermarking (SFW)と呼ばれる新しい埋め込み手法を提案する。
SFWはエルミート対称性を強制することによって周波数整合性を維持する。
我々は,収穫攻撃による意味的透かしの脆弱性を低減する中心認識型埋め込み戦略を導入する。
論文 参考訳(メタデータ) (2025-09-09T12:15:16Z) - Watermarking Degrades Alignment in Language Models: Analysis and Mitigation [8.866121740748447]
本稿では,Gumbel と KGW の2つの一般的な透かし手法が真理性,安全性,有用性にどのように影響するかを体系的に分析する。
本稿では,外部報酬モデルを用いてアライメントを復元する推論時間サンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T21:29:07Z) - MorphMark: Flexible Adaptive Watermarking for Large Language Models [49.3302421751894]
既存の透かし法は、しばしばジレンマに苦しむ: 透かしの有効性を改善するには、テキストの品質を低下させるコストがかかる。
特定因子の変化に応じて透かし強度を適応的に調整するMorphMark法を開発した。
MorphMarkは、高い柔軟性と時間と空間効率を提供するとともに、有効性の高いジレンマの優れた解決を実現している。
論文 参考訳(メタデータ) (2025-05-14T13:11:16Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。