論文の概要: LexiMark: Robust Watermarking via Lexical Substitutions to Enhance Membership Verification of an LLM's Textual Training Data
- arxiv url: http://arxiv.org/abs/2506.14474v1
- Date: Tue, 17 Jun 2025 12:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.473846
- Title: LexiMark: Robust Watermarking via Lexical Substitutions to Enhance Membership Verification of an LLM's Textual Training Data
- Title(参考訳): LexiMark: LLMのテキストトレーニングデータのメンバシップ検証を促進するための語彙置換によるロバストな透かし
- Authors: Eyal German, Sagiv Antebi, Edan Habler, Asaf Shabtai, Yuval Elovici,
- Abstract要約: LexiMarkは、テキストとドキュメント用に設計された新しい透かし技術である。
慎重に選択された高エントロピー語に対する同義語置換を組み込む。
微妙で、文脈的に適切な置換のために除去に抵抗する。
- 参考スコア(独自算出の注目度): 24.312198733476063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be trained or fine-tuned on data obtained without the owner's consent. Verifying whether a specific LLM was trained on particular data instances or an entire dataset is extremely challenging. Dataset watermarking addresses this by embedding identifiable modifications in training data to detect unauthorized use. However, existing methods often lack stealth, making them relatively easy to detect and remove. In light of these limitations, we propose LexiMark, a novel watermarking technique designed for text and documents, which embeds synonym substitutions for carefully selected high-entropy words. Our method aims to enhance an LLM's memorization capabilities on the watermarked text without altering the semantic integrity of the text. As a result, the watermark is difficult to detect, blending seamlessly into the text with no visible markers, and is resistant to removal due to its subtle, contextually appropriate substitutions that evade automated and manual detection. We evaluated our method using baseline datasets from recent studies and seven open-source models: LLaMA-1 7B, LLaMA-3 8B, Mistral 7B, Pythia 6.9B, as well as three smaller variants from the Pythia family (160M, 410M, and 1B). Our evaluation spans multiple training settings, including continued pretraining and fine-tuning scenarios. The results demonstrate significant improvements in AUROC scores compared to existing methods, underscoring our method's effectiveness in reliably verifying whether unauthorized watermarked data was used in LLM training.
- Abstract(参考訳): 大型言語モデル(LLM)は、所有者の同意なしに得られたデータに基づいて訓練または微調整することができる。
特定のLLMが特定のデータインスタンスでトレーニングされたか、データセット全体について検証するのは極めて難しい。
データセットの透かしは、認証可能な修正をトレーニングデータに埋め込んで、不正使用を検出することでこの問題に対処する。
しかし、既存のメソッドはステルスを欠くことが多く、検出や削除が比較的容易である。
これらの制約を考慮してテキストと文書用に設計された新しい透かし技術であるLexiMarkを提案し、慎重に選択された高エントロピー語に対する同義語置換を組み込む。
本手法は,テキストの意味的整合性を変化させることなく,透かし付きテキスト上でのLLMの暗記能力を向上させることを目的とする。
その結果、透かしは検出が困難で、目に見えるマーカーのないテキストにシームレスにブレンドすることができず、自動および手動検出を回避できる微妙で適切な置換のために除去に抵抗する。
LLaMA-1 7B, LLaMA-3 8B, Mistral 7B, Pythia 6.9B, およびPythia family (160M, 410M, 1B) の3つの小さな変種について, ベースラインデータセットを用いて評価を行った。
評価は、トレーニングの継続と微調整のシナリオを含む、複数のトレーニング設定にまたがる。
その結果,従来の方法と比較してAUROCスコアが大幅に向上し,LLMトレーニングに不正な透かしデータを使用したかどうかを確実に検証する手法の有効性が示された。
関連論文リスト
- Watermarking Makes Language Models Radioactive [24.123479478427594]
言語モデルが合成データに基づいて訓練されたかどうかを、透かしのLLMによって出力された場合、確実に判断することが可能である。
放射能を専門とする我々の新しい手法は、透かし信号の弱い残差を証明可能な信頼性で検出する。
例えば、被疑者モデルがオープンウェイトであれば、透かしによる訓練を高い信頼性で検出できることが示される。
論文 参考訳(メタデータ) (2024-02-22T18:55:22Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。