論文の概要: WaterMod: Modular Token-Rank Partitioning for Probability-Balanced LLM Watermarking
- arxiv url: http://arxiv.org/abs/2511.07863v1
- Date: Wed, 12 Nov 2025 01:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.511051
- Title: WaterMod: Modular Token-Rank Partitioning for Probability-Balanced LLM Watermarking
- Title(参考訳): WaterMod: 確率ベースLLMウォーターマーキングのためのモジュール型Token-Rank分割
- Authors: Shinwoo Park, Hyejin Park, Hyeseon Ahn, Yo-Sub Han,
- Abstract要約: WaterModは、透かしに対する確率対応のモジュラールールである。
ゼロビットとマルチビットの両方の設定で強い透かし検出性能が得られる。
これは自然言語生成、数学的推論、コード合成など、さまざまなタスクにまたがる。
- 参考スコア(独自算出の注目度): 9.249768575382397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models now draft news, legal analyses, and software code with human-level fluency. At the same time, regulations such as the EU AI Act mandate that each synthetic passage carry an imperceptible, machine-verifiable mark for provenance. Conventional logit-based watermarks satisfy this requirement by selecting a pseudorandom green vocabulary at every decoding step and boosting its logits, yet the random split can exclude the highest-probability token and thus erode fluency. WaterMod mitigates this limitation through a probability-aware modular rule. The vocabulary is first sorted in descending model probability; the resulting ranks are then partitioned by the residue rank mod k, which distributes adjacent-and therefore semantically similar-tokens across different classes. A fixed bias of small magnitude is applied to one selected class. In the zero-bit setting (k=2), an entropy-adaptive gate selects either the even or the odd parity as the green list. Because the top two ranks fall into different parities, this choice embeds a detectable signal while guaranteeing that at least one high-probability token remains available for sampling. In the multi-bit regime (k>2), the current payload digit d selects the color class whose ranks satisfy rank mod k = d. Biasing the logits of that class embeds exactly one base-k digit per decoding step, thereby enabling fine-grained provenance tracing. The same modular arithmetic therefore supports both binary attribution and rich payloads. Experimental results demonstrate that WaterMod consistently attains strong watermark detection performance while maintaining generation quality in both zero-bit and multi-bit settings. This robustness holds across a range of tasks, including natural language generation, mathematical reasoning, and code synthesis. Our code and data are available at https://github.com/Shinwoo-Park/WaterMod.
- Abstract(参考訳): 大規模な言語モデルは、人レベルの流布を伴うニュース、法的な分析、ソフトウェアコードをドラフトする。
同時に、EU AI Act(英語版)のような規則は、それぞれの合成通路は、証明のために不可避で機械が検証可能なマークを持っていることを規定している。
従来のロジットベースの透かしは、デコードステップ毎に擬似ランダムグリーンの語彙を選択し、そのロジットを増加させることでこの要件を満たすが、ランダムスプリットは最も確率の高いトークンを除外し、結果として遅延を省くことができる。
WaterModはこの制限を、確率対応のモジュラールールによって緩和する。
ボキャブラリはまず下降モデルの確率でソートされ、結果として得られるランクは剰余ランク mod k によって分割される。
1つの選択されたクラスに対して、小さな大きさの固定バイアスが適用される。
ゼロビット設定(k=2)では、エントロピー適応ゲートが偶数または奇数のパリティのいずれかをグリーンリストとして選択する。
上位2つのランクは異なるパリティに分類されるため、この選択は検出可能なシグナルを埋め込むと同時に、少なくとも1つの高確率トークンがサンプリングに利用可能であることを保証している。
マルチビットレジーム(k>2)では、現在のペイロード桁dがランクが mod k = d を満たすカラークラスを選択する。
そのクラスのロジットをバイズすることで、デコードステップ毎に正確に1つのベースk桁を埋め込むことで、きめ細かいプロファイランストレースが可能になる。
したがって、同じモジュラー演算はバイナリ属性とリッチペイロードの両方をサポートする。
実験結果から,WaterModはゼロビットとマルチビットの両方の設定で生成品質を維持しつつ,強い透かし検出性能が得られることがわかった。
この堅牢性は、自然言語生成、数学的推論、コード合成など、さまざまなタスクにまたがる。
私たちのコードとデータはhttps://github.com/Shinwoo-Park/WaterMod.comで公開されています。
関連論文リスト
- A Reinforcement Learning Framework for Robust and Secure LLM Watermarking [40.90513051455007]
我々は、堅牢でセキュアな透かしのためのエンドツーエンドのRLフレームワークを提案する。
提案手法では,報奨条件にアンカー機構を導入し,安定したトレーニングを確保するとともに,報奨ハックを防止するための追加の正規化条件を導入する。
本手法は,全ての基準において最先端のトレードオフを実現し,他の基準を劣化させることなく,攻撃に対する抵抗性を顕著に改善する。
論文 参考訳(メタデータ) (2025-10-23T23:53:03Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。