論文の概要: An Ensemble Framework for Unbiased Language Model Watermarking
- arxiv url: http://arxiv.org/abs/2509.24043v1
- Date: Sun, 28 Sep 2025 19:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.604141
- Title: An Ensemble Framework for Unbiased Language Model Watermarking
- Title(参考訳): 曖昧な言語モデル透かしのためのアンサンブルフレームワーク
- Authors: Yihan Wu, Ruibo Chen, Georgios Milis, Heng Huang,
- Abstract要約: 本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
- 参考スコア(独自算出の注目度): 60.99969104552168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models become increasingly capable and widely deployed, verifying the provenance of machine-generated content is critical to ensuring trust, safety, and accountability. Watermarking techniques have emerged as a promising solution by embedding imperceptible statistical signals into the generation process. Among them, unbiased watermarking is particularly attractive due to its theoretical guarantee of preserving the language model's output distribution, thereby avoiding degradation in fluency or detectability through distributional shifts. However, existing unbiased watermarking schemes often suffer from weak detection power and limited robustness, especially under short text lengths or distributional perturbations. In this work, we propose ENS, a novel ensemble framework that enhances the detectability and robustness of logits-based unbiased watermarks while strictly preserving their unbiasedness. ENS sequentially composes multiple independent watermark instances, each governed by a distinct key, to amplify the watermark signal. We theoretically prove that the ensemble construction remains unbiased in expectation and demonstrate how it improves the signal-to-noise ratio for statistical detectors. Empirical evaluations on multiple LLM families show that ENS substantially reduces the number of tokens needed for reliable detection and increases resistance to smoothing and paraphrasing attacks without compromising generation quality.
- Abstract(参考訳): 大規模言語モデルがますます有能になり、広くデプロイされるようになるにつれ、マシン生成されたコンテンツの証明は、信頼性、安全性、説明責任を保証するために重要である。
ウォーターマーキング技術は、認識不能な統計信号を生成プロセスに埋め込むことによって、有望な解決策として現れてきた。
特に非バイアスウォーターマーキングは、言語モデルの出力分布を保存することの理論的保証により、分散シフトによる流速の低下や検出性を回避するため、特に魅力的である。
しかし、既存の非バイアスの透かし方式は、弱い検出力と限られた頑丈さ、特に短いテキストの長さや分布の摂動に悩まされる。
本研究では,アンサンブルフレームワークであるENSを提案する。このフレームワークは,ロジットに基づくアンバイアスド透かしの検出性とロバスト性を高めつつ,そのアンサンブルネスを厳格に保ちつつ,ロジットに基づくアンバイアスド透かしの堅牢性を高める。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
理論的には、アンサンブルの構成は期待できないままであり、統計的検出器の信号対雑音比をどのように改善するかを実証する。
複数のLLMファミリーに対する実証評価では、ENSは信頼性の高い検出に必要なトークンの数を大幅に減らし、生成品質を損なうことなく、スムーズな攻撃やパラフレーズ攻撃に対する耐性を高めることが示されている。
関連論文リスト
- Analyzing and Evaluating Unbiased Language Model Watermark [62.982950935139534]
UWbenchは、偏りのない透かし手法の原理的評価を専門とする、最初のオープンソースベンチマークである。
我々の枠組みは理論的な貢献と経験的な貢献を組み合わせている。
我々は,非バイアス性,検出性,堅牢性という3軸評価プロトコルを確立し,トークン改質攻撃がパラフレーズベースの手法よりも安定したロバストネス評価を提供することを示す。
論文 参考訳(メタデータ) (2025-09-28T19:46:01Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Watermarking Degrades Alignment in Language Models: Analysis and Mitigation [8.866121740748447]
本稿では,Gumbel と KGW の2つの一般的な透かし手法が真理性,安全性,有用性にどのように影響するかを体系的に分析する。
本稿では,外部報酬モデルを用いてアライメントを復元する推論時間サンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T21:29:07Z) - GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - Debiasing Watermarks for Large Language Models via Maximal Coupling [24.937491193018623]
本稿では,グリーントークンの生成確率を微妙に増大させる新しいグリーン/レッドリスト透かし手法を提案する。
実験結果から,高い検出性を維持しつつテキスト品質を保ちつつ,従来技術よりも優れていたことが示唆された。
本研究は,テキスト品質への影響を最小限に抑えつつ,効果的な検出のバランスを保ちながら,言語モデルに有望な透かしソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-17T23:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。