Fugu-MT 論文翻訳(概要): Proving membership in LLM pretraining data via data watermarks

論文の概要: Proving membership in LLM pretraining data via data watermarks

arxiv url: http://arxiv.org/abs/2402.10892v1
Date: Fri, 16 Feb 2024 18:49:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 14:39:44.465070
Title: Proving membership in LLM pretraining data via data watermarks
Title（参考訳）: データ透かしを用いたLLM事前学習データの証明
Authors: Johnny Tian-Zheng Wei, Ryan Yixiang Wang, Robin Jia
Abstract要約: この研究は、ブラックボックスモデルアクセスのみで原則付き検出を可能にするために、データ透かしを使うことを提案する。ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。 BLOOM-176Bのトレーニングデータから,少なくとも90回はハッシュを確実に検出できることを示す。
参考スコア（独自算出の注目度）: 23.12467573182206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detecting whether copyright holders' works were used in LLM pretraining is poised to be an important problem. This work proposes using data watermarks to enable principled detection with only black-box model access, provided that the rightholder contributed multiple training documents and watermarked them before public release. By applying a randomly sampled data watermark, detection can be framed as hypothesis testing, which provides guarantees on the false detection rate. We study two watermarks: one that inserts random sequences, and another that randomly substitutes characters with Unicode lookalikes. We first show how three aspects of watermark design -- watermark length, number of duplications, and interference -- affect the power of the hypothesis test. Next, we study how a watermark's detection strength changes under model and dataset scaling: while increasing the dataset size decreases the strength of the watermark, watermarks remain strong if the model size also increases. Finally, we view SHA hashes as natural watermarks and show that we can robustly detect hashes from BLOOM-176B's training data, as long as they occurred at least 90 times. Together, our results point towards a promising future for data watermarks in real world use.
Abstract（参考訳）: LLM事前学習において著作権保持者の著作物が使用されているかどうかを検出することは重要な問題である。本研究は,ブラックボックスモデルアクセスのみによる原則的検出を可能にするために,データウォーターマークの利用を提案する。ランダムにサンプリングされたデータ透かしを適用することで、偽検出率の保証を提供する仮説テストとして検出を行うことができる。ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。まず,ウォーターマーク設計の3つの側面 – ウォーターマーク長,重複数,干渉数 – が仮説テストのパワーにどのように影響するかを示す。次に,モデルとデータセットのスケーリングによる透かしの検出強度の変化について検討する。データセットサイズの増加は透かしの強度を減少させるが,モデルサイズが増大しても透かしは強い。最後に、SHAハッシュを自然の透かしとみなし、少なくとも90回はBLOOM-176Bのトレーニングデータからハッシュを確実に検出できることを示す。我々の結果は、現実世界でのデータ透かしに将来性のある未来に向かっている。

関連論文リスト

Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models [52.877452505561706]
データセットのオーナシップ検証(DOV)を損なうよう特別に設計された最初の著作権回避攻撃を提案する。 CEAT2Iは, 試料検出, トリガー同定, 効率的な透かし除去の3段階からなる。実験の結果,CEAT2I はモデル性能を保ちながら DOV 機構を効果的に回避できることがわかった。
論文参考訳（メタデータ） (2025-05-05T17:51:55Z)
Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge [31.766208360156906]
言語モデルのデータ透かしは、トークンシーケンスやスタイルパターンなどのトレース可能な信号を著作権のあるテキストに注入する。従来のデータ透かし技術は主に事前訓練後の効果的な記憶に焦点を当てていた。トレーニングデータにコヒーレントで確実な知識を注入する新しいデータ透かし手法を提案する。
論文参考訳（メタデータ） (2025-03-06T02:40:51Z)
TabularMark: Watermarking Tabular Datasets for Machine Learning [20.978995194849297]
仮説テストに基づく透かし方式であるTabularMarkを提案する。データノイズパーティショニングは、埋め込み中のデータ摂動に利用される。実世界のデータセットと合成データセットの実験は、検出性、非侵入性、堅牢性においてTabularMarkの優位性を示している。
論文参考訳（メタデータ） (2024-06-21T02:58:45Z)
Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文参考訳（メタデータ） (2024-05-28T08:41:30Z)
Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。出力確率分布に影響を与えることなく、透かしを統合することができる。ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文参考訳（メタデータ） (2023-09-22T12:46:38Z)
Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文参考訳（メタデータ） (2023-09-09T12:46:08Z)
An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文参考訳（メタデータ） (2023-07-30T13:43:27Z)
Did You Train on My Dataset? Towards Public Dataset Protection with Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文参考訳（メタデータ） (2023-03-20T21:54:30Z)
On Function-Coupled Watermarks for Deep Neural Networks [15.478746926391146]
本稿では,透かし除去攻撃に対して効果的に防御できる新しいDNN透かし法を提案する。私たちの重要な洞察は、透かしとモデル機能の結合を強化することです。その結果,アグレッシブ・ウォーターマーク除去攻撃による100%透かし認証の成功率を示した。
論文参考訳（メタデータ） (2023-02-08T05:55:16Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)
Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文参考訳（メタデータ） (2020-10-12T16:16:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。