論文の概要: QuantileMark: A Message-Symmetric Multi-bit Watermark for LLMs
- arxiv url: http://arxiv.org/abs/2604.13786v1
- Date: Wed, 15 Apr 2026 12:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.524675
- Title: QuantileMark: A Message-Symmetric Multi-bit Watermark for LLMs
- Title(参考訳): QuantileMark: LLMのためのメッセージシメトリマルチビット透かし
- Authors: Junlin Zhu, Baizhou Huang, Xiaojun Wan,
- Abstract要約: QuantileMarkは、メッセージを累積確率間隔内に埋め込むホワイトボックスの透かしである。
この間隔を$M$等質量ビンに分割し、ターゲットシンボルに割り当てられたビンから厳密にサンプリングする。
検出のために、検証者は教師の強制の下で同じ分割を再構築し、潜伏したビンの後方を計算し、検証の証拠を集計する。
- 参考スコア(独自算出の注目度): 43.011999511057134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models become standard backends for content generation, practical provenance increasingly requires multi-bit watermarking. In provider-internal deployments, a key requirement is message symmetry: the message itself should not systematically affect either text quality or verification outcomes. Vocabulary-partition watermarks can break message symmetry in low-entropy decoding: some messages are assigned most of the probability mass, while others are forced to use tail tokens. This makes embedding quality and message decoding accuracy message-dependent. We propose QuantileMark, a white-box multi-bit watermark that embeds messages within the continuous cumulative probability interval $[0, 1)$. At each step, QuantileMark partitions this interval into $M$ equal-mass bins and samples strictly from the bin assigned to the target symbol, ensuring a fixed $1/M$ probability budget regardless of context entropy. For detection, the verifier reconstructs the same partition under teacher forcing, computes posteriors over latent bins, and aggregates evidence for verification. We prove message-unbiasedness, a property ensuring that the base distribution is recovered when averaging over messages. This provides a theoretical foundation for generation-side symmetry, while the equal-mass design additionally promotes uniform evidence strength across messages on the detection side. Empirical results on C4 continuation and LFQA show improved multi-bit recovery and detection robustness over strong baselines, with negligible impact on generation quality. Our code is available at GitHub (https://github.com/zzzjunlin/QuantileMark).
- Abstract(参考訳): 大規模言語モデルがコンテンツ生成の標準バックエンドになるにつれて、実践的な成果はますます多ビットの透かしを必要としている。
メッセージ自体がテキストの品質や検証結果に体系的に影響を及ぼすべきではない。
語彙分割透かしは低エントロピー復号法でメッセージ対称性を破ることができる: 一部のメッセージは確率質量のほとんどを割り当てられ、他のメッセージはテールトークンを使用するように強制される。
これにより、埋め込み品質とメッセージデコーディングの精度がメッセージに依存します。
我々は、連続累積確率区間$[0, 1)$にメッセージを埋め込む、ホワイトボックスのマルチビット透かしであるQuantileMarkを提案する。
それぞれのステップにおいて、QuantileMarkはこの間隔を$M$等しい質量のビンに分割し、ターゲットシンボルに割り当てられたビンから厳密にサンプリングし、コンテキストエントロピーに関係なく1/M$の確率予算を確保する。
検出のために、検証者は教師の強制の下で同じパーティションを再構築し、潜伏したビンの後方を計算し、検証の証拠を集計する。
我々は、メッセージ平均化時に基地分布が復元されることを保証する特性であるメッセージ不偏性を証明する。
これは生成側対称性の理論的基盤を提供する一方で、等質量設計は検出側のメッセージ間で一様証拠強度を促進する。
C4継続とLFQAの実証実験結果から、強いベースライン上でのマルチビット回復とロバスト性の向上が見られ、生成品質には何の影響も認められなかった。
私たちのコードはGitHubで入手可能です(https://github.com/zzzjunlin/QuantileMark)。
関連論文リスト
- MC$^2$Mark: Distortion-Free Multi-Bit Watermarking for Long Messages [62.982950935139534]
マルチビット透かしは、識別子を生成されたテキストに埋め込むことができるが、既存の方法は、長いメッセージを送りながらテキストの品質と透かしの強さを維持するのに苦労している。
本稿では,長文の埋め込みと復号化のための歪みのないマルチビット透かしフレームワークMC$2$Markを提案する。
論文 参考訳(メタデータ) (2026-02-15T07:29:06Z) - MerkleSpeech: Public-Key Verifiable, Chunk-Localised Speech Provenance via Perceptual Fingerprints and Merkle Commitments [0.0]
本稿では,公開鍵検証・チャンク局所音声認識システムであるMerkleSpeechを提案する。
このシステムは、短い音声チャンク上で知覚指紋を計算し、それを発行キーで署名されたMerkleツリーにコミットする。
我々は,再サンプリング,帯域通過フィルタ,付加雑音下での極めて低い偽陽性率を目標とした実験を行った。
論文 参考訳(メタデータ) (2026-02-10T11:58:19Z) - MirrorMark: A Distortion-Free Multi-Bit Watermark for Large Language Models [5.735801967350819]
大規模言語モデル(LLM)のための歪みのない透かしであるMirrorMarkを提案する。
MirrorMarkはトークンの確率分布を変更することなくマルチビットメッセージを埋め込み、設計によるテキスト品質の保存を行う。
実験の結果,MirrorMarkは非透かし生成のテキスト品質とほぼ一致し,検出性は著しく向上した。
論文 参考訳(メタデータ) (2026-01-29T19:10:48Z) - MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints [49.2373408329323]
大規模言語モデル(LLM)のための透かしレベル(SWM)に関する新しい理論フレームワークを提案する。
PMarkは単純だが強力なSWM手法であり、サンプリングチャネルを通して中央値の次文を動的に推定する。
実験結果から,PMarkはテキスト品質とパラフレージングの両方において,既存のSWMベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-09-25T12:08:31Z) - SAEMark: Multi-bit LLM Watermarking with Inference-Time Scaling [24.603169307967338]
SAEMarkはポストホックなマルチビット透かしのための一般的なフレームワークである。
パーソナライズされたメッセージは、推論時間、フィーチャベースのリジェクションサンプリングによってのみ埋め込む。
SAEMarkの一貫性のある性能を示し、英語でのF1は99.7%、マルチビット検出精度は強い。
論文 参考訳(メタデータ) (2025-08-11T17:33:18Z) - Advancing Beyond Identification: Multi-bit Watermark for Large Language Models [31.066140913513035]
機械生成テキストの識別を超えて,大規模言語モデルの誤用に対処する可能性を示す。
言語モデル生成中にトレーサブルなマルチビット情報を埋め込んだ位置アロケーションによるマルチビット透かしを提案する。
論文 参考訳(メタデータ) (2023-08-01T01:27:40Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。