論文の概要: PRO: Enabling Precise and Robust Text Watermark for Open-Source LLMs
- arxiv url: http://arxiv.org/abs/2510.23891v1
- Date: Mon, 27 Oct 2025 22:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.595852
- Title: PRO: Enabling Precise and Robust Text Watermark for Open-Source LLMs
- Title(参考訳): PRO: オープンソースLLMのための精度とロバストテキスト透かしの実現
- Authors: Jiaqi Xue, Yifei Zhao, Mansour Al Ghanim, Shangqian Gao, Ruimin Sun, Qian Lou, Mengxin Zheng,
- Abstract要約: 本稿では,オープンソースのモデルに対する高精度かつロバストなテキスト透かし手法であるPropを提案する。
Proは、モデル修正に対する透かし検出性とレジリエンスの両方を大幅に改善する。
- 参考スコア(独自算出の注目度): 33.70483974998233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text watermarking for large language models (LLMs) enables model owners to verify text origin and protect intellectual property. While watermarking methods for closed-source LLMs are relatively mature, extending them to open-source models remains challenging, as developers cannot control the decoding process. Consequently, owners of open-source LLMs lack practical means to verify whether text was generated by their models. A core difficulty lies in embedding watermarks directly into model weights without hurting detectability. A promising idea is to distill watermarks from a closed-source model into an open one, but this suffers from (i) poor detectability due to mismatch between learned and predefined patterns, and (ii) fragility to downstream modifications such as fine-tuning or model merging. To overcome these limitations, we propose PRO, a Precise and Robust text watermarking method for open-source LLMs. PRO jointly trains a watermark policy model with the LLM, producing patterns that are easier for the model to learn and more consistent with detection criteria. A regularization term further simulates downstream perturbations and penalizes degradation in watermark detectability, ensuring robustness under model edits. Experiments on open-source LLMs (e.g., LLaMA-3.2, LLaMA-3, Phi-2) show that PRO substantially improves both watermark detectability and resilience to model modifications.
- Abstract(参考訳): 大規模言語モデル (LLM) のためのテキスト透かしにより、モデル所有者はテキストの起源を検証でき、知的財産を保護することができる。
クローズドソースLLMの透かし手法は比較的成熟しているが、開発者はデコードプロセスを制御できないため、それらをオープンソースモデルに拡張することは難しい。
結果として、オープンソースのLLMの所有者は、彼らのモデルからテキストが生成されるかどうかを検証するための実践的な手段を欠いている。
主な課題は、検出性を損なうことなく、モデルウェイトに直接透かしを埋め込むことである。
有望なアイデアは、クローズドソースモデルからオープンなモデルに透かしを蒸留することだ。
(i)学習パターンと事前定義されたパターンのミスマッチによる検出性の低下
(II)微調整やモデルマージなどの下流修正に対する脆弱性。
これらの制約を克服するため,オープンソースのLCMのためのPOW(Precise and Robust text watermarking method)を提案する。
PROはLLMと共同で透かしポリシーモデルをトレーニングし、モデルが学習しやすく、検出基準とより整合したパターンを生成する。
正規化項はさらに下流の摂動をシミュレートし、透かし検出性の低下を罰し、モデル編集時の堅牢性を保証する。
オープンソースのLCM(例: LLaMA-3.2, LLaMA-3, Phi-2)の実験では、Proは透かしの検出性とモデル修正に対するレジリエンスの両方を大幅に改善することが示された。
関連論文リスト
- Mark Your LLM: Detecting the Misuse of Open-Source Large Language Models via Watermarking [40.951792492059646]
本研究は,オープンソースの大規模言語モデル(LLM)における2つの誤用シナリオを定義する。
本稿では,これらの文脈における推論時透かし蒸留とバックドア透かしの適用について検討する。
実験の結果, 後方透かしはIP Violationを効果的に検出でき, 推論時透かし蒸留はどちらのシナリオにも適用可能であることがわかった。
論文 参考訳(メタデータ) (2025-03-06T17:24:06Z) - WAPITI: A Watermark for Finetuned Open-Source LLMs [42.1087852764299]
WAPITIはパラメータ統合によってベースモデルから微調整モデルに透かしを転送する新しい手法である。
提案手法は,透かしの注入に成功し,微調整モデルとの互換性が高いことを示す。
論文 参考訳(メタデータ) (2024-10-09T01:41:14Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Double-I Watermark: Protecting Model Copyright for LLM Fine-tuning [45.09125828947013]
提案手法は、微調整中に特定の透かし情報をカスタマイズされたモデルに効果的に注入する。
提案手法を各種微調整法で評価し, その無害性, 頑健性, 独特性, 不受容性, 妥当性を定量的および定性的な分析により検証した。
論文 参考訳(メタデータ) (2024-02-22T04:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。