論文の概要: MC$^2$Mark: Distortion-Free Multi-Bit Watermarking for Long Messages
- arxiv url: http://arxiv.org/abs/2602.14030v1
- Date: Sun, 15 Feb 2026 07:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.610849
- Title: MC$^2$Mark: Distortion-Free Multi-Bit Watermarking for Long Messages
- Title(参考訳): MC$^2$Mark:長いメッセージのための歪みのないマルチビット透かし
- Authors: Xuehao Cui, Ruibo Chen, Yihan Wu, Heng Huang,
- Abstract要約: マルチビット透かしは、識別子を生成されたテキストに埋め込むことができるが、既存の方法は、長いメッセージを送りながらテキストの品質と透かしの強さを維持するのに苦労している。
本稿では,長文の埋め込みと復号化のための歪みのないマルチビット透かしフレームワークMC$2$Markを提案する。
- 参考スコア(独自算出の注目度): 62.982950935139534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models now produce text indistinguishable from human writing, which increases the need for reliable provenance tracing. Multi-bit watermarking can embed identifiers into generated text, but existing methods struggle to keep both text quality and watermark strength while carrying long messages. We propose MC$^2$Mark, a distortion-free multi-bit watermarking framework designed for reliable embedding and decoding of long messages. Our key technical idea is Multi-Channel Colored Reweighting, which encodes bits through structured token reweighting while keeping the token distribution unbiased, together with Multi-Layer Sequential Reweighting to strengthen the watermark signal and an evidence-accumulation detector for message recovery. Experiments show that MC$^2$Mark improves detectability and robustness over prior multi-bit watermarking methods while preserving generation quality, achieving near-perfect accuracy for short messages and exceeding the second-best method by nearly 30% for long messages.
- Abstract(参考訳): 大規模な言語モデルでは、人間の記述と区別できないテキストが生成され、信頼性の高いプロファイランストレースの必要性が高まっている。
マルチビット透かしは、識別子を生成されたテキストに埋め込むことができるが、既存の方法は、長いメッセージを送りながらテキストの品質と透かしの強さを維持するのに苦労している。
本稿では,長文の埋め込みと復号化のために設計した歪みのないマルチビット透かしフレームワークMC$2$Markを提案する。
鍵となる技術的アイデアはマルチチャネルカラーリウェイト(Multi-Channel Colored Reweighting)であり、トークン分布をバイアスなく保ちながら、構造化トークンリウェイトを通じてビットを符号化すると同時に、透かし信号の強化とメッセージ回復のためのエビデンス累積検出器であるMulti-Layer Sequential Reweighting(Multi-Layer Sequential Reweighting)も備えています。
実験の結果,MC$^2$Markは,従来のマルチビット透かし法よりも検出性とロバスト性を向上し,生成品質を保ち,短メッセージのほぼ完全精度を達成し,長メッセージの2番目に高い手法を30%近く超えることがわかった。
関連論文リスト
- Majority Bit-Aware Watermarking For Large Language Models [7.200910949076064]
MajorMarkは、多数ビット認識エンコーディングによるこのトレードオフを改善する新しい透かし手法である。
トークン周波数分析を利用した復号化手法とは対照的に、MajorMarkはクラスタリングベースの復号化戦略を採用している。
我々の手法は復号精度とテキスト生成品質の両方を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-05T18:19:00Z) - BiMark: Unbiased Multilayer Watermarking for Large Language Models [68.64050157343334]
テキスト品質とメッセージ埋め込み能力のバランスをとる新しい透かしフレームワークであるBiMarkを提案する。
BiMarkは、短いテキストに対して最大30%高い抽出率を達成すると同時に、低いパープレキシティで示されるテキスト品質を維持する。
論文 参考訳(メタデータ) (2025-06-19T11:08:59Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - Advancing Beyond Identification: Multi-bit Watermark for Large Language Models [31.066140913513035]
機械生成テキストの識別を超えて,大規模言語モデルの誤用に対処する可能性を示す。
言語モデル生成中にトレーサブルなマルチビット情報を埋め込んだ位置アロケーションによるマルチビット透かしを提案する。
論文 参考訳(メタデータ) (2023-08-01T01:27:40Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。