論文の概要: HATS: High-Accuracy Triple-Set Watermarking for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.19378v1
- Date: Mon, 22 Dec 2025 13:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.76888
- Title: HATS: High-Accuracy Triple-Set Watermarking for Large Language Models
- Title(参考訳): HATS:大規模言語モデルのための高精度トリプルセット透かし
- Authors: Zhiqing Hu, Chenxu Zhao, Jiazhong Lu, Xiaolei Liu,
- Abstract要約: 本稿では,各復号段階における語彙を3つの集合に分割する透かしを提案する。
検出時に同じパーティションを再生し、グリーンエンリッチメントとレッドデプレクションの統計を計算し、それらを一方のzスコアに変換し、p値を集約する。
我々はLlama 2 7Bで生成、検出、テストを行い、真陽性率、偽陽性率、テキスト品質を評価した。
- 参考スコア(独自算出の注目度): 12.046442787235108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Misuse of LLM-generated text can be curbed by watermarking techniques that embed implicit signals into the output. We propose a watermark that partitions the vocabulary at each decoding step into three sets (Green/Yellow/Red) with fixed ratios and restricts sampling to the Green and Yellow sets. At detection time, we replay the same partitions, compute Green-enrichment and Red-depletion statistics, convert them to one-sided z-scores, and aggregate their p-values via Fisher's method to decide whether a passage is watermarked. We implement generation, detection, and testing on Llama 2 7B, and evaluate true-positive rate, false-positive rate, and text quality. Results show that the triple-partition scheme achieves high detection accuracy at fixed FPR while preserving readability.
- Abstract(参考訳): LLM生成テキストの誤用は、暗黙の信号を出力に埋め込む透かし技術によって抑制できる。
本稿では,各復号段階における語彙を固定比で3つの集合(緑/黄色/赤)に分割し,サンプリングを緑と黄色に制限する透かしを提案する。
検出時に同じパーティションをリプレイし、グリーンエンリッチメントとレッドデプレクションの統計を計算し、それらを一方のzスコアに変換し、フィッシャーの手法でそれらのp値を収集し、通路に透かしがあるかどうかを決定する。
我々はLlama 2 7Bで生成、検出、テストを行い、真陽性率、偽陽性率、テキスト品質を評価した。
その結果, 3分割方式は, 可読性を保ちながら, 固定FPRにおいて高い検出精度が得られることがわかった。
関連論文リスト
- Detecting Post-generation Edits to Watermarked LLM Outputs via Combinatorial Watermarking [51.417096446156926]
ウォーターマークされたLCM出力に局所的に編集されたポストジェネレーションの編集を検出する。
本稿では,語彙を部分集合に分割し,透かしを埋め込むパターンベースの透かしフレームワークを提案する。
本手法は,様々な編集シナリオにおけるオープンソースのLCMについて評価し,編集ローカライゼーションにおける強力な経験的性能を示す。
論文 参考訳(メタデータ) (2025-10-02T03:33:12Z) - Optimized Couplings for Watermarking Large Language Models [8.585779208433465]
大規模言語モデル(LLM)は、多くの場合、人間が生成したコンテンツと区別できないようなテキストを生成することができる。
本稿では,テキスト透かしをワンショットで解析する。
論文 参考訳(メタデータ) (2025-05-13T18:08:12Z) - Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - Debiasing Watermarks for Large Language Models via Maximal Coupling [24.937491193018623]
本稿では,グリーントークンの生成確率を微妙に増大させる新しいグリーン/レッドリスト透かし手法を提案する。
実験結果から,高い検出性を維持しつつテキスト品質を保ちつつ,従来技術よりも優れていたことが示唆された。
本研究は,テキスト品質への影響を最小限に抑えつつ,効果的な検出のバランスを保ちながら,言語モデルに有望な透かしソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-17T23:36:37Z) - FreqMark: Frequency-Based Watermark for Sentence-Level Detection of LLM-Generated Text [31.600659350609476]
FreqMarkは、トークンサンプリングプロセス中にLarge Language Models (LLMs) 生成したテキストに周波数ベースの透かしを埋め込む。
メソッドは周期的な信号を利用してトークンの選択をガイドし、短い時間フーリエ変換(STFT)分析で検出できる透かしを生成する。
実験では、FreqMarkの堅牢性と精度を示し、さまざまな攻撃シナリオに対して強力な検出能力を示している。
論文 参考訳(メタデータ) (2024-10-09T05:01:48Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。