論文の概要: LexiMark: Robust Watermarking via Lexical Substitutions to Enhance Membership Verification of an LLM's Textual Training Data
- arxiv url: http://arxiv.org/abs/2506.14474v1
- Date: Tue, 17 Jun 2025 12:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.473846
- Title: LexiMark: Robust Watermarking via Lexical Substitutions to Enhance Membership Verification of an LLM's Textual Training Data
- Title(参考訳): LexiMark: LLMのテキストトレーニングデータのメンバシップ検証を促進するための語彙置換によるロバストな透かし
- Authors: Eyal German, Sagiv Antebi, Edan Habler, Asaf Shabtai, Yuval Elovici,
- Abstract要約: LexiMarkは、テキストとドキュメント用に設計された新しい透かし技術である。
慎重に選択された高エントロピー語に対する同義語置換を組み込む。
微妙で、文脈的に適切な置換のために除去に抵抗する。
- 参考スコア(独自算出の注目度): 24.312198733476063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be trained or fine-tuned on data obtained without the owner's consent. Verifying whether a specific LLM was trained on particular data instances or an entire dataset is extremely challenging. Dataset watermarking addresses this by embedding identifiable modifications in training data to detect unauthorized use. However, existing methods often lack stealth, making them relatively easy to detect and remove. In light of these limitations, we propose LexiMark, a novel watermarking technique designed for text and documents, which embeds synonym substitutions for carefully selected high-entropy words. Our method aims to enhance an LLM's memorization capabilities on the watermarked text without altering the semantic integrity of the text. As a result, the watermark is difficult to detect, blending seamlessly into the text with no visible markers, and is resistant to removal due to its subtle, contextually appropriate substitutions that evade automated and manual detection. We evaluated our method using baseline datasets from recent studies and seven open-source models: LLaMA-1 7B, LLaMA-3 8B, Mistral 7B, Pythia 6.9B, as well as three smaller variants from the Pythia family (160M, 410M, and 1B). Our evaluation spans multiple training settings, including continued pretraining and fine-tuning scenarios. The results demonstrate significant improvements in AUROC scores compared to existing methods, underscoring our method's effectiveness in reliably verifying whether unauthorized watermarked data was used in LLM training.
- Abstract(参考訳): 大型言語モデル(LLM)は、所有者の同意なしに得られたデータに基づいて訓練または微調整することができる。
特定のLLMが特定のデータインスタンスでトレーニングされたか、データセット全体について検証するのは極めて難しい。
データセットの透かしは、認証可能な修正をトレーニングデータに埋め込んで、不正使用を検出することでこの問題に対処する。
しかし、既存のメソッドはステルスを欠くことが多く、検出や削除が比較的容易である。
これらの制約を考慮してテキストと文書用に設計された新しい透かし技術であるLexiMarkを提案し、慎重に選択された高エントロピー語に対する同義語置換を組み込む。
本手法は,テキストの意味的整合性を変化させることなく,透かし付きテキスト上でのLLMの暗記能力を向上させることを目的とする。
その結果、透かしは検出が困難で、目に見えるマーカーのないテキストにシームレスにブレンドすることができず、自動および手動検出を回避できる微妙で適切な置換のために除去に抵抗する。
LLaMA-1 7B, LLaMA-3 8B, Mistral 7B, Pythia 6.9B, およびPythia family (160M, 410M, 1B) の3つの小さな変種について, ベースラインデータセットを用いて評価を行った。
評価は、トレーニングの継続と微調整のシナリオを含む、複数のトレーニング設定にまたがる。
その結果,従来の方法と比較してAUROCスコアが大幅に向上し,LLMトレーニングに不正な透かしデータを使用したかどうかを確実に検証する手法の有効性が示された。
関連論文リスト
- StealthInk: A Multi-bit and Stealthy Watermark for Large Language Models [4.76514657698929]
StealthInkは、大規模言語モデル(LLM)のためのステルスなマルチビット透かし方式である
元のテキスト配布を保存し、証明データの埋め込みを可能にする。
固定等誤り率で透かし検出に必要なトークン数に対する低い境界を導出する。
論文 参考訳(メタデータ) (2025-06-05T18:37:38Z) - In-Context Watermarks for Large Language Models [71.29952527565749]
In-Context Watermarking (ICW)は、インシデントエンジニアリングのみで生成されたテキストに透かしを埋め込む。
粒度の異なる4つのICW戦略について検討した。
本実験は,モデルに依存しない実用的な透かし手法としてのICWの実現可能性を検証するものである。
論文 参考訳(メタデータ) (2025-05-22T17:24:51Z) - Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge [31.766208360156906]
言語モデルのデータ透かしは、トークンシーケンスやスタイルパターンなどのトレース可能な信号を著作権のあるテキストに注入する。
従来のデータ透かし技術は主に事前学習時の効果的な記憶に焦点を当てていた。
本研究では,定型的だが定型的な知識を学習データに注入する新しいデータ透かし手法を提案する。
論文 参考訳(メタデータ) (2025-03-06T02:40:51Z) - Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。
我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。
また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文 参考訳(メタデータ) (2024-11-21T06:06:04Z) - Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。
この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。
提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文 参考訳(メタデータ) (2024-10-09T04:49:03Z) - Watermarking Makes Language Models Radioactive [24.123479478427594]
言語モデルが合成データに基づいて訓練されたかどうかを、透かしのLLMによって出力された場合、確実に判断することが可能である。
放射能を専門とする我々の新しい手法は、透かし信号の弱い残差を証明可能な信頼性で検出する。
例えば、被疑者モデルがオープンウェイトであれば、透かしによる訓練を高い信頼性で検出できることが示される。
論文 参考訳(メタデータ) (2024-02-22T18:55:22Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。