論文の概要: SAEMark: Multi-bit LLM Watermarking with Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2508.08211v1
- Date: Mon, 11 Aug 2025 17:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.236519
- Title: SAEMark: Multi-bit LLM Watermarking with Inference-Time Scaling
- Title(参考訳): SAEMark: 推論時間スケーリングによるマルチビットLLM透かし
- Authors: Zhuohao Yu, Xingru Jiang, Weizheng Gu, Yidong Wang, Shikun Zhang, Wei Ye,
- Abstract要約: SAEMarkはポストホックなマルチビット透かしのための一般的なフレームワークである。
パーソナライズされたメッセージは、推論時間、フィーチャベースのリジェクションサンプリングによってのみ埋め込む。
SAEMarkの一貫性のある性能を示し、英語でのF1は99.7%、マルチビット検出精度は強い。
- 参考スコア(独自算出の注目度): 24.603169307967338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking LLM-generated text is critical for content attribution and misinformation prevention. However, existing methods compromise text quality, require white-box model access and logit manipulation. These limitations exclude API-based models and multilingual scenarios. We propose SAEMark, a general framework for post-hoc multi-bit watermarking that embeds personalized messages solely via inference-time, feature-based rejection sampling without altering model logits or requiring training. Our approach operates on deterministic features extracted from generated text, selecting outputs whose feature statistics align with key-derived targets. This framework naturally generalizes across languages and domains while preserving text quality through sampling LLM outputs instead of modifying. We provide theoretical guarantees relating watermark success probability and compute budget that hold for any suitable feature extractor. Empirically, we demonstrate the framework's effectiveness using Sparse Autoencoders (SAEs), achieving superior detection accuracy and text quality. Experiments across 4 datasets show SAEMark's consistent performance, with 99.7% F1 on English and strong multi-bit detection accuracy. SAEMark establishes a new paradigm for scalable watermarking that works out-of-the-box with closed-source LLMs while enabling content attribution.
- Abstract(参考訳): LLM生成テキストの透かしは、コンテンツ属性と誤情報防止に重要である。
しかし、既存の手法はテキストの品質を妥協し、ホワイトボックスのモデルアクセスとロジット操作を必要とする。
これらの制限は、APIベースのモデルと多言語シナリオを除外する。
SAEMarkはポストホックなマルチビット透かしのための一般的なフレームワークで、モデルロジットの変更やトレーニングの必要なしに、推論時間、特徴に基づく拒否サンプリングのみでパーソナライズされたメッセージを埋め込む。
提案手法は、生成したテキストから抽出した決定論的特徴に基づいて、特徴統計がキー由来のターゲットと一致した出力を選択する。
このフレームワークは言語やドメインをまたいで自然に一般化し、LLM出力をサンプリングすることでテキストの品質を保っている。
我々は,適切な特徴抽出器を保有する透かし成功確率と計算予算に関する理論的保証を提供する。
実験により,Sparse Autoencoders (SAEs) を用いて本フレームワークの有効性を実証し,より優れた検出精度とテキスト品質を実現する。
4つのデータセットにわたる実験は、SAEMarkの一貫性のあるパフォーマンスを示し、英語でのF1は99.7%、マルチビット検出の精度は強い。
SAEMarkは拡張性のある透かしのための新しいパラダイムを確立しており、これはクローズドソースのLCMで動作し、コンテンツへの貢献を可能にしている。
関連論文リスト
- StealthInk: A Multi-bit and Stealthy Watermark for Large Language Models [4.76514657698929]
StealthInkは、大規模言語モデル(LLM)のためのステルスなマルチビット透かし方式である
元のテキスト配布を保存し、証明データの埋め込みを可能にする。
固定等誤り率で透かし検出に必要なトークン数に対する低い境界を導出する。
論文 参考訳(メタデータ) (2025-06-05T18:37:38Z) - Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - SimMark: A Robust Sentence-Level Similarity-Based Watermarking Algorithm for Large Language Models [1.7188280334580197]
SimMarkは、大規模な言語モデルの出力を、モデルの内部ログへのアクセスを必要とせずにトレース可能にする、ポストホックな透かしアルゴリズムである。
実験結果から,SimMark は LLM 生成コンテンツのロバストな透かしのための新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2025-02-05T00:21:01Z) - DERMARK: A Dynamic, Efficient and Robust Multi-bit Watermark for Large Language Models [18.023143082876015]
テキストを各ウォーターマークビットに対して可変長セグメントに分割する動的で効率的で堅牢なマルチビット透かし法を提案する。
本手法は,埋め込みビット当たりのトークン数を25%削減し,透かし埋め込み時間を50%削減し,テキスト修正や透かし消去攻撃に対して高い堅牢性を維持する。
論文 参考訳(メタデータ) (2025-02-04T11:23:49Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。