論文の概要: Analyzing and Evaluating Unbiased Language Model Watermark
- arxiv url: http://arxiv.org/abs/2509.24048v1
- Date: Sun, 28 Sep 2025 19:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.60849
- Title: Analyzing and Evaluating Unbiased Language Model Watermark
- Title(参考訳): 非偏在言語モデル透かしの解析と評価
- Authors: Yihan Wu, Xuehao Cui, Ruibo Chen, Heng Huang,
- Abstract要約: UWbenchは、偏りのない透かし手法の原理的評価を専門とする、最初のオープンソースベンチマークである。
我々の枠組みは理論的な貢献と経験的な貢献を組み合わせている。
我々は,非バイアス性,検出性,堅牢性という3軸評価プロトコルを確立し,トークン改質攻撃がパラフレーズベースの手法よりも安定したロバストネス評価を提供することを示す。
- 参考スコア(独自算出の注目度): 62.982950935139534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verifying the authenticity of AI-generated text has become increasingly important with the rapid advancement of large language models, and unbiased watermarking has emerged as a promising approach due to its ability to preserve output distribution without degrading quality. However, recent work reveals that unbiased watermarks can accumulate distributional bias over multiple generations and that existing robustness evaluations are inconsistent across studies. To address these issues, we introduce UWbench, the first open-source benchmark dedicated to the principled evaluation of unbiased watermarking methods. Our framework combines theoretical and empirical contributions: we propose a statistical metric to quantify multi-batch distribution drift, prove an impossibility result showing that no unbiased watermark can perfectly preserve the distribution under infinite queries, and develop a formal analysis of robustness against token-level modification attacks. Complementing this theory, we establish a three-axis evaluation protocol: unbiasedness, detectability, and robustness, and show that token modification attacks provide more stable robustness assessments than paraphrasing-based methods. Together, UWbench offers the community a standardized and reproducible platform for advancing the design and evaluation of unbiased watermarking algorithms.
- Abstract(参考訳): AI生成したテキストの信頼性を検証することは、大規模言語モデルの急速な進歩によってますます重要になってきており、品質を劣化させることなく出力分布を保存できるため、バイアスのない透かしが有望なアプローチとして現れている。
しかし、最近の研究では、バイアスのない透かしが複数世代にわたって分布バイアスを蓄積し、既存のロバスト性評価が研究全体で矛盾していることが明らかになっている。
これらの問題に対処するために、未バイアスウォーターマーキング手法の原則的評価を専門とする最初のオープンソースベンチマークであるUWbenchを紹介する。
本研究では,マルチバッチ分布のドリフトを定量化するための統計的指標を提案し,非バイアスな透かしが無限クエリ下での分布を完全に保存できないことを示すとともに,トークンレベルの修正攻撃に対するロバスト性に関する公式な解析を行う。
この理論を補完し、非バイアス性、検出性、堅牢性という3軸評価プロトコルを確立し、トークン改質攻撃がパラフレーズベースの手法よりも安定した堅牢性評価を提供することを示す。
UWbenchはコミュニティに、偏見のない透かしアルゴリズムの設計と評価を進めるための、標準化され再現可能なプラットフォームを提供する。
関連論文リスト
- An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - CEFW: A Comprehensive Evaluation Framework for Watermark in Large Language Models [12.565502899825724]
本稿では,5つの重要次元にわたる透かし手法を包括的に評価する統合フレームワークを提案する。
これには、検出の容易さ、テキスト品質の忠実さ、埋め込みコストの最小化、敵攻撃に対する堅牢性、模倣や偽造を防ぐための非受容性などが含まれる。
本稿では,透かし情報の追加方法のバランスをとることで,堅牢性と非受容性を保証できるBa balanced Watermark (BW)を紹介した。
論文 参考訳(メタデータ) (2025-03-24T13:50:32Z) - Improved Unbiased Watermark for Large Language Models [59.00698153097887]
本稿では,非バイアスのマルチチャネル型透かしであるMCmarkを紹介する。
MCmarkは言語モデルの本来の分布を保存する。
既存の非バイアスの透かしよりも検出性と堅牢性を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-16T21:02:36Z) - Debiasing Watermarks for Large Language Models via Maximal Coupling [24.937491193018623]
本稿では,グリーントークンの生成確率を微妙に増大させる新しいグリーン/レッドリスト透かし手法を提案する。
実験結果から,高い検出性を維持しつつテキスト品質を保ちつつ,従来技術よりも優れていたことが示唆された。
本研究は,テキスト品質への影響を最小限に抑えつつ,効果的な検出のバランスを保ちながら,言語モデルに有望な透かしソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-17T23:36:37Z) - Watermarking Language Models with Error Correcting Codes [39.77377710480125]
本稿では,誤り訂正符号を用いて統計的信号を符号化する透かしフレームワークを提案する。
本手法は,ロバストバイナリコード (RBC) の透かしと呼ばれ,品質の顕著な劣化を生じさせない。
私たちの経験的発見は、私たちの透かしは速く、強力で、堅牢であり、最先端のものと好意的に比較していることを示唆しています。
論文 参考訳(メタデータ) (2024-06-12T05:13:09Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。