論文の概要: Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs
- arxiv url: http://arxiv.org/abs/2605.30501v1
- Date: Thu, 28 May 2026 19:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.194958
- Title: Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs
- Title(参考訳): LLMにおける分散摂動の脆弱性について -Linear Ensembles Away Watermarks-
- Authors: Zhihao Wu, Gracia Gong, Qinglin Zhu, Yudong Chen, Runcong Zhao,
- Abstract要約: ウォーターマーキングは、検出と帰属のためのAI生成テキストに統計的シグネチャを埋め込む。
ユーザが複数のモデルにアクセスすると、透かしは自明に失敗する。
WASH(Watermark Attenuation via Statistical Hybridisation)を導入し,アンサンブル生成における実践的課題を解決する。
- 参考スコア(独自算出の注目度): 13.891118064010898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking embeds statistical signatures in AI-generated text for detection and attribution. We reveal a fundamental vulnerability: when users access multiple models (today's reality), watermarks trivially fail. Watermarks perturb output distributions away from the original, and in competitive markets, these perturbations are typically independent across providers. We theoretically prove that averaging output probability distributions recovers the unwatermarked distribution with up to a second-order error term. Empirically, simply averaging 3-5 models cancels out these perturbations. We introduce WASH (Watermark Attenuation via Statistical Hybridisation), which solves practical challenges in ensemble generation: vocabulary misalignment and tokenisation differences across heterogeneous models. Experiments across six watermarking schemes and three LLMs show that averaging across 3 models suppresses detection z-scores from 5-300 to below 2 (below the detection threshold of 4) and reduces TPR at 5% FPR to below 50%, while improving quality by 27.5% and running 6 times faster than the best baseline on the long sequence generation. Our results suggest that robust AI-text detection via watermarking requires either accepting this fundamental vulnerability or unprecedented coordination among model providers.
- Abstract(参考訳): ウォーターマーキングは、検出と帰属のためのAI生成テキストに統計的シグネチャを埋め込む。
ユーザが複数のモデル(今日の現実)にアクセスすると、透かしは自明に失敗します。
透かしはオリジナルからアウトプットの分布を遠ざけ、競争市場においては、これらの摂動は通常、プロバイダ間で独立している。
理論的には、平均出力確率分布が2階誤差項の非透かし分布を復元する。
経験的に言えば、平均3-5モデルの平均化は、これらの摂動をキャンセルする。
WASH(Watermark Attenuation via Statistical Hybridization)を導入し,異種モデル間での語彙的ミスアライメントとトークン化の相違という,アンサンブル生成の実践的課題を解決する。
6つの透かしスキームと3つのLCMでの実験では、3つのモデルの平均値が5-300から2以下(検出しきい値以下)のzスコアを抑え、5%のFPRでTPRを50%以下に削減し、品質を27.5%改善し、長いシーケンス生成において最高のベースラインよりも6倍高速に動作している。
我々の結果は、透かしによる堅牢なAIテキスト検出には、この基本的な脆弱性を受け入れるか、モデルプロバイダ間で前例のない調整が必要であることを示唆している。
関連論文リスト
- Beyond Perplexity: Character Distribution Signatures and the MDTA Benchmark for AI Text Detection [0.34998703934432673]
トレーニング不要のAIテキスト検出方法は、主にモデルログ確率に依存し、BinocularsやDNA-DetectLLMといったアプローチを通じて強力なパフォーマンスを達成する。
文字分布シグネチャに基づく代替検出信号を導入する。
我々は、大規模ドメインバランスのコーパスに基づいて訓練されたAIモデルが、人間がドメインに特化された分布を示す一方で、グローバルなキャラクタパターンを近似していることを示す理論的基盤を提供する。
論文 参考訳(メタデータ) (2026-05-03T00:10:15Z) - Analyzing and Evaluating Unbiased Language Model Watermark [62.982950935139534]
UWbenchは、偏りのない透かし手法の原理的評価を専門とする、最初のオープンソースベンチマークである。
我々の枠組みは理論的な貢献と経験的な貢献を組み合わせている。
我々は,非バイアス性,検出性,堅牢性という3軸評価プロトコルを確立し,トークン改質攻撃がパラフレーズベースの手法よりも安定したロバストネス評価を提供することを示す。
論文 参考訳(メタデータ) (2025-09-28T19:46:01Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - Watermarking Degrades Alignment in Language Models: Analysis and Mitigation [8.866121740748447]
本稿では,Gumbel と KGW の2つの一般的な透かし手法が真理性,安全性,有用性にどのように影響するかを体系的に分析する。
本稿では,外部報酬モデルを用いてアライメントを復元する推論時間サンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T21:29:07Z) - Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach [53.32564762183639]
大規模言語モデル(LLM)の透かしのための新しい統一的理論フレームワークを導入する。
本研究の目的は,最悪の偽陽性率(FPR)の制御とテキスト品質の歪みを維持しつつ,検出性能を最大化することである。
モデル非依存と効率性に代えて代理モデルを利用する歪みのない分散適応型透かしアルゴリズム(DAWA)を提案する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。