論文の概要: Proving membership in LLM pretraining data via data watermarks
- arxiv url: http://arxiv.org/abs/2402.10892v1
- Date: Fri, 16 Feb 2024 18:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 14:39:44.465070
- Title: Proving membership in LLM pretraining data via data watermarks
- Title(参考訳): データ透かしを用いたLLM事前学習データの証明
- Authors: Johnny Tian-Zheng Wei, Ryan Yixiang Wang, Robin Jia
- Abstract要約: この研究は、ブラックボックスモデルアクセスのみで原則付き検出を可能にするために、データ透かしを使うことを提案する。
ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。
BLOOM-176Bのトレーニングデータから,少なくとも90回はハッシュを確実に検出できることを示す。
- 参考スコア(独自算出の注目度): 23.12467573182206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting whether copyright holders' works were used in LLM pretraining is
poised to be an important problem. This work proposes using data watermarks to
enable principled detection with only black-box model access, provided that the
rightholder contributed multiple training documents and watermarked them before
public release. By applying a randomly sampled data watermark, detection can be
framed as hypothesis testing, which provides guarantees on the false detection
rate. We study two watermarks: one that inserts random sequences, and another
that randomly substitutes characters with Unicode lookalikes. We first show how
three aspects of watermark design -- watermark length, number of duplications,
and interference -- affect the power of the hypothesis test. Next, we study how
a watermark's detection strength changes under model and dataset scaling: while
increasing the dataset size decreases the strength of the watermark, watermarks
remain strong if the model size also increases. Finally, we view SHA hashes as
natural watermarks and show that we can robustly detect hashes from
BLOOM-176B's training data, as long as they occurred at least 90 times.
Together, our results point towards a promising future for data watermarks in
real world use.
- Abstract(参考訳): LLM事前学習において著作権保持者の著作物が使用されているかどうかを検出することは重要な問題である。
本研究は,ブラックボックスモデルアクセスのみによる原則的検出を可能にするために,データウォーターマークの利用を提案する。
ランダムにサンプリングされたデータ透かしを適用することで、偽検出率の保証を提供する仮説テストとして検出を行うことができる。
ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。
まず,ウォーターマーク設計の3つの側面 – ウォーターマーク長,重複数,干渉数 – が仮説テストのパワーにどのように影響するかを示す。
次に,モデルとデータセットのスケーリングによる透かしの検出強度の変化について検討する。 データセットサイズの増加は透かしの強度を減少させるが,モデルサイズが増大しても透かしは強い。
最後に、SHAハッシュを自然の透かしとみなし、少なくとも90回はBLOOM-176Bのトレーニングデータからハッシュを確実に検出できることを示す。
我々の結果は、現実世界でのデータ透かしに将来性のある未来に向かっている。
関連論文リスト
- Performance Trade-offs of Watermarking Large Language Models [28.556397738117617]
各種タスクにおいて,透かし付き大規模言語モデル (LLM) の性能を評価する。
ウォーターマーキングがkクラス分類問題として生じるタスクのパフォーマンスに無視できない影響があることが判明した。
要約や翻訳などの長文生成タスクでは、透かしによる性能の15~20%低下が見られる。
論文 参考訳(メタデータ) (2023-11-16T11:44:58Z) - WaterBench: Towards Holistic Evaluation of Watermarks for Large Language
Models [51.06949065544253]
本稿ではLLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介する。
私たちは3つの重要な要素を設計します。
textbftaskの選択には、入力と出力の長さを多様化して、9ドルのタスクをカバーする5つのカテゴリの分類を作成します。
テキスト評価基準では,透かし後の指示追従能力の低下を自動的に評価するために GPT4-Judge を用いる。
論文 参考訳(メタデータ) (2023-11-13T08:09:01Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [88.50683534978407]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とする。
本稿では、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽造不可能な検証可能な透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Who Wrote this Code? Watermarking for Code Generation [55.54239495289517]
エントロピー閾値(SWEET)を用いた新しい透かし手法Selective WatErmarkingを提案する。
SWEETは、生成中のトークン分布のエントロピーが高い位置にのみ「グリーン」トークンをプロモートすることで、生成されたコードの正確性を維持する。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z) - On Function-Coupled Watermarks for Deep Neural Networks [15.478746926391146]
本稿では,透かし除去攻撃に対して効果的に防御できる新しいDNN透かし法を提案する。
私たちの重要な洞察は、透かしとモデル機能の結合を強化することです。
その結果,アグレッシブ・ウォーターマーク除去攻撃による100%透かし認証の成功率を示した。
論文 参考訳(メタデータ) (2023-02-08T05:55:16Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。