論文の概要: XMark: Reliable Multi-Bit Watermarking for LLM-Generated Texts
- arxiv url: http://arxiv.org/abs/2604.05242v1
- Date: Mon, 06 Apr 2026 23:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.52329
- Title: XMark: Reliable Multi-Bit Watermarking for LLM-Generated Texts
- Title(参考訳): XMark: LLM生成テキストに対する信頼性の高いマルチビット透かし
- Authors: Jiahao Xu, Rui Hu, Olivera Kotevska, Zikai Zhang,
- Abstract要約: textscXMarkは、LLM(Large Language Model)で生成されたテキストでバイナリメッセージをエンコードしデコードするための新しい方法である。
textscXMarkは、透かし付きテキストの品質を維持しながらデコード精度を著しく改善し、従来の方法よりも優れている。
- 参考スコア(独自算出の注目度): 11.826762642822219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-bit watermarking has emerged as a promising solution for embedding imperceptible binary messages into Large Language Model (LLM)-generated text, enabling reliable attribution and tracing of malicious usage of LLMs. Despite recent progress, existing methods still face key limitations: some become computationally infeasible for large messages, while others suffer from a poor trade-off between text quality and decoding accuracy. Moreover, the decoding accuracy of existing methods drops significantly when the number of tokens in the generated text is limited, a condition that frequently arises in practical usage. To address these challenges, we propose \textsc{XMark}, a novel method for encoding and decoding binary messages in LLM-generated texts. The unique design of \textsc{XMark}'s encoder produces a less distorted logit distribution for watermarked token generation, preserving text quality, and also enables its tailored decoder to reliably recover the encoded message with limited tokens. Extensive experiments across diverse downstream tasks show that \textsc{XMark} significantly improves decoding accuracy while preserving the quality of watermarked text, outperforming prior methods. The code is at https://github.com/JiiahaoXU/XMark.
- Abstract(参考訳): マルチビット透かしは,Large Language Model (LLM) 生成テキストに認識不能なバイナリメッセージを埋め込むための,有望なソリューションとして登場した。
最近の進歩にもかかわらず、既存の手法は依然として重要な制限に直面している。大きなメッセージに対して計算的に不可能になるものもあれば、テキストの品質と復号精度の間のトレードオフが不十分なものもある。
さらに、既存のメソッドの復号精度は、生成されたテキストのトークン数が限られている場合に著しく低下する。
これらの課題に対処するために,LLM生成テキストにバイナリメッセージをエンコードし復号する新しい方法である \textsc{XMark} を提案する。
textsc{XMark} のエンコーダのユニークな設計は、透かし付きトークン生成のための歪みの少ないロジット分布を生成し、テキストの品質を保ち、また、その調整されたデコーダにより、限られたトークンでエンコーダメッセージを確実に復元することができる。
様々なダウンストリームタスクに対する大規模な実験により、‘textsc{XMark} はウォーターマークされたテキストの品質を維持しながら復号精度を大幅に向上し、先行手法よりも優れていた。
コードはhttps://github.com/JiiahaoXU/XMarkにある。
関連論文リスト
- MC$^2$Mark: Distortion-Free Multi-Bit Watermarking for Long Messages [62.982950935139534]
マルチビット透かしは、識別子を生成されたテキストに埋め込むことができるが、既存の方法は、長いメッセージを送りながらテキストの品質と透かしの強さを維持するのに苦労している。
本稿では,長文の埋め込みと復号化のための歪みのないマルチビット透かしフレームワークMC$2$Markを提案する。
論文 参考訳(メタデータ) (2026-02-15T07:29:06Z) - Majority Bit-Aware Watermarking For Large Language Models [7.200910949076064]
MajorMarkは、多数ビット認識エンコーディングによるこのトレードオフを改善する新しい透かし手法である。
トークン周波数分析を利用した復号化手法とは対照的に、MajorMarkはクラスタリングベースの復号化戦略を採用している。
我々の手法は復号精度とテキスト生成品質の両方を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-05T18:19:00Z) - DERMARK: A Dynamic, Efficient and Robust Multi-bit Watermark for Large Language Models [18.023143082876015]
テキストを各ウォーターマークビットに対して可変長セグメントに分割する動的で効率的で堅牢なマルチビット透かし法を提案する。
本手法は,埋め込みビット当たりのトークン数を25%削減し,透かし埋め込み時間を50%削減し,テキスト修正や透かし消去攻撃に対して高い堅牢性を維持する。
論文 参考訳(メタデータ) (2025-02-04T11:23:49Z) - Provably Robust Multi-bit Watermarking for AI-generated Text [37.21416140194606]
大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する顕著な能力を示した。
犯罪者が偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために悪用することもある。
ウォーターマーキングはこれらの懸念に対処するための重要なテクニックであり、メッセージをテキストに埋め込む。
論文 参考訳(メタデータ) (2024-01-30T08:46:48Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。