論文の概要: MarkTune: Improving the Quality-Detectability Trade-off in Open-Weight LLM Watermarking
- arxiv url: http://arxiv.org/abs/2512.04044v1
- Date: Wed, 03 Dec 2025 18:32:19 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:13:07.07978
- Title: MarkTune: Improving the Quality-Detectability Trade-off in Open-Weight LLM Watermarking
- Title(参考訳): MarkTune: LLMウォーターマーキングにおける品質-検出性トレードオフの改善
- Authors: Yizhou Zhao, Zhiwei Steven Wu, Adam Block,
- Abstract要約: 我々は、ウォーターマーキング言語モデルのための原則付きオンライン微調整フレームワークであるMarkTuneを紹介した。
我々は、MarkTuneがGussMarkの品質検出可能性フロンティアを、推論時ウォーターマーキングのそれに近いものにしていることを示す。
- 参考スコア(独自算出の注目度): 40.275212039627384
- License:
- Abstract: Watermarking aims to embed hidden signals in generated text that can be reliably detected when given access to a secret key. Open-weight language models pose acute challenges for such watermarking schemes because the inference-time interventions that dominate contemporary approaches cannot be enforced once model weights are public. Existing watermaking techniques for open-weight models, such as the recently proposed GaussMark, typically rely on small modifications to model weights, which can yield signals detectable to those equipped with a secret key, but achieving detection power comparable to inference-time watermarks generally requires weight perturbations that noticeably reduce generation quality. We introduce MarkTune, a theoretically principled, on-policy fine-tuning framework that treats the GaussMark signal as a reward while simultaneously regularizing against degradation in text quality. We derive MarkTune as an improvement on GaussMark and demonstrate that MarkTune consistently improves the quality-detectability trade-off over GaussMark by steering finer-grained, watermark-aware weight updates within the model's representation space while preserving generation quality. Empirically, we show that MarkTune pushes the quality-detectability frontier of GaussMark close to that of inference-time watermarking, remains robust to paraphrasing and fine-tuning attacks, and exhibits strong generalization: a model fine-tuned on one dataset retains substantial watermark detection power on unseen datasets. Together, these results establish MarkTune as a general strategy for embedding robust, high-quality watermarks into open-weight LMs.
- Abstract(参考訳): ウォーターマーキングは、シークレットキーにアクセスする際に確実に検出できる、生成したテキストに隠された信号を埋め込むことを目的としている。
オープンウェイト言語モデルは、モデルウェイトが公になれば、現代のアプローチを支配する推論時間介入を実施できないため、このようなウォーターマーキングスキームに急激な課題を生じさせる。
最近提案されたGaussMarkのような、既存のオープンウェイトモデルの製水技術は、一般にモデルウェイトへの小さな変更に依存しており、シークレットキーを備えたものに検出可能な信号を与えることができるが、推論時ウォーターマークに匹敵する検出能力を達成するには、一般的には、生成品質を著しく低下させる重量摂動を必要とする。
本稿では,GussMarkシグナルを報酬として扱い,テキスト品質の劣化に対して同時に正規化する,理論的に原理化されたオンライン微調整フレームワークであるMarkTuneを紹介する。
我々は MarkTune を GaussMark の改良として導き、MarkTune が生成品質を保ちながらモデル表現空間内で細粒度で透かし対応の重み更新を操ることで、GussMark に対する品質-検出可能性トレードオフを一貫して改善することを示した。
経験的に、MarkTuneは推論時ウォーターマーキングに近い品質-検出可能性のフロンティアを推し進め、言い換えや微調整攻撃に対して頑健であり、強力な一般化を示している。
これらの結果はMarkTuneを、堅牢で高品質な透かしをオープンウェイトなLMに埋め込む一般的な戦略として確立した。
関連論文リスト
- An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints [49.2373408329323]
大規模言語モデル(LLM)のための透かしレベル(SWM)に関する新しい理論フレームワークを提案する。
PMarkは単純だが強力なSWM手法であり、サンプリングチャネルを通して中央値の次文を動的に推定する。
実験結果から,PMarkはテキスト品質とパラフレージングの両方において,既存のSWMベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-09-25T12:08:31Z) - GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - CLUE-MARK: Watermarking Diffusion Models using CLWE [8.429227679450433]
本稿では,拡散モデルに対する最初の検出不能な透かし方式であるCLUE-Markを紹介する。
CLUE-Markは、ウォーターマークされたモデルの変更を一切必要とせず、計算効率が良く、モデル出力の品質に影響を与えないことが保証されている。
CLUE-Markは、最近のステガノグラフィー攻撃では検出や除去ができない。
論文 参考訳(メタデータ) (2024-11-18T10:03:01Z) - TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。
予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。
これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文 参考訳(メタデータ) (2024-03-09T08:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。