論文の概要: Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge
- arxiv url: http://arxiv.org/abs/2503.04036v2
- Date: Tue, 11 Mar 2025 06:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 12:20:28.954967
- Title: Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge
- Title(参考訳): 架空の知識を注入した言語モデルにおけるロバストなデータ透かし
- Authors: Xinyue Cui, Johnny Tian-Zheng Wei, Swabha Swayamdipta, Robin Jia,
- Abstract要約: 言語モデルのデータ透かしは、トークンシーケンスやスタイルパターンなどのトレース可能な信号を著作権のあるテキストに注入する。
従来のデータ透かし技術は主に事前訓練後の効果的な記憶に焦点を当てていた。
トレーニングデータにコヒーレントで確実な知識を注入する新しいデータ透かし手法を提案する。
- 参考スコア(独自算出の注目度): 31.766208360156906
- License:
- Abstract: Data watermarking in language models injects traceable signals, such as specific token sequences or stylistic patterns, into copyrighted text, allowing copyright holders to track and verify training data ownership. Previous data watermarking techniques primarily focus on effective memorization after pretraining, while overlooking challenges that arise in other stages of the LLM pipeline, such as the risk of watermark filtering during data preprocessing, or potential forgetting through post-training, or verification difficulties due to API-only access. We propose a novel data watermarking approach that injects coherent and plausible yet fictitious knowledge into training data using generated passages describing a fictitious entity and its associated attributes. Our watermarks are designed to be memorized by the LLM through seamlessly integrating in its training data, making them harder to detect lexically during preprocessing. We demonstrate that our watermarks can be effectively memorized by LLMs, and that increasing our watermarks' density, length, and diversity of attributes strengthens their memorization. We further show that our watermarks remain robust throughout LLM development, maintaining their effectiveness after continual pretraining and supervised finetuning. Finally, we show that our data watermarks can be evaluated even under API-only access via question answering.
- Abstract(参考訳): 言語モデルのデータ透かしは、特定のトークンシーケンスやスタイルパターンなどのトレーサブルな信号を著作権のあるテキストに注入する。
以前のデータ透かし技術は主に事前トレーニング後の効果的な暗記に重点を置いている一方で、データ前処理中の透かしフィルタリングのリスクや、後トレーニングによる潜在的な忘れ込み、APIのみアクセスによる検証困難など、LLMパイプラインの他のステージで発生する課題を見落としている。
提案手法は, 実存物とその関連属性を記述した生成文を用いた学習データに, 一貫性があり, 実証可能な知識を注入する, 新たなデータ透かし手法を提案する。
我々の透かしは、トレーニングデータにシームレスに統合することでLLMによって記憶されるように設計されており、前処理中に語彙を検出するのが難しくなる。
我々の透かしはLLMによって効果的に記憶され、透かしの密度、長さ、および属性の多様性の増大によって記憶が強化されることを実証した。
さらに,我々の透かしはLLM開発を通じて頑健であり,連続的な事前訓練および教師付き微調整後の有効性を維持していることを示す。
最後に,質問応答によるAPIのみアクセスでも,データの透かしを評価できることを示す。
関連論文リスト
- Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation? [75.99961894619986]
本稿では,学生モデルが知識蒸留により,透かしの継承を回避しつつ,教師モデルの能力を獲得することができるかどうかを考察する。
本稿では,未ターゲットおよび目標とするトレーニングデータパラフレージング(UP,TP)による蒸留前除去と,推論時透かし中和(WN)による蒸留後除去の2つのカテゴリを提案する。
論文 参考訳(メタデータ) (2025-02-17T09:34:19Z) - Watermarking Large Language Models and the Generated Content: Opportunities and Challenges [18.01886375229288]
生成型大規模言語モデル(LLM)は知的財産権侵害や機械生成誤報の拡散に懸念を抱いている。
ウォーターマーキングは、所有権を確立し、許可されていない使用を防止し、LLM生成コンテンツの起源を追跡できる有望な手法として機能する。
本稿では,LLMをウォーターマークする際の課題と機会を要約し,共有する。
論文 参考訳(メタデータ) (2024-10-24T18:55:33Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - Waterfall: Framework for Robust and Scalable Text Watermarking and Provenance for LLMs [36.068335914828396]
我々は、堅牢でスケーラブルなテキスト透かしのための最初のトレーニング不要のフレームワークであるWaterfallを提案する。
ウォーターフォールは、SOTAの記事テキストによるウォーターマーキング法と比較して、スケーラビリティ、堅牢な検証可能性、計算効率を著しく向上させる。
論文 参考訳(メタデータ) (2024-07-05T10:51:33Z) - Learning to Watermark LLM-generated Text via Reinforcement Learning [16.61005372279407]
誤用追跡のためのLCM出力の透かしについて検討する。
出力に信号を埋め込むモデルレベルの透かしを設計する。
強化学習に基づく協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T03:43:39Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。