論文の概要: Data-Copying in Generative Models: A Formal Framework
- arxiv url: http://arxiv.org/abs/2302.13181v1
- Date: Sat, 25 Feb 2023 22:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:31:02.642564
- Title: Data-Copying in Generative Models: A Formal Framework
- Title(参考訳): 生成モデルにおけるデータコピー:形式的枠組み
- Authors: Robi Bhattacharjee, Sanjoy Dasgupta, Kamalika Chaudhuri
- Abstract要約: データコピー(data-copying)と呼ばれる生成モデルの記憶のための形式的な枠組みがMeehanらによって提案された。
我々は、それらのフレームワークが特定の種類のブラタント記憶の検出に失敗する可能性があることを示すために、彼らの作業の上に構築する。
本研究では,データコピーを検出する手法を提案し,十分なデータが得られれば高い確率で動作することを示す。
- 参考スコア(独自算出の注目度): 34.84064423819405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been some recent interest in detecting and addressing memorization
of training data by deep neural networks. A formal framework for memorization
in generative models, called "data-copying," was proposed by Meehan et. al.
(2020). We build upon their work to show that their framework may fail to
detect certain kinds of blatant memorization. Motivated by this and the theory
of non-parametric methods, we provide an alternative definition of data-copying
that applies more locally. We provide a method to detect data-copying, and
provably show that it works with high probability when enough data is
available. We also provide lower bounds that characterize the sample
requirement for reliable detection.
- Abstract(参考訳): 近年,深層ニューラルネットワークによるトレーニングデータの暗記の検出と対処への関心が高まっている。
meehanらによって「データコピー」と呼ばれる生成モデルの記憶のための形式的枠組みが提唱された。
アル(2020年)。
我々は、それらのフレームワークがある種のブラタント記憶の検出に失敗する可能性があることを示すために、彼らの作業の上に構築する。
これと非パラメトリック法の理論により、より局所的に適用されるデータコピーの代替的な定義を提供する。
データコピーの検出方法を提供し、十分なデータが利用可能であれば高い確率で動作することを示す。
また、信頼性検出のためのサンプル要求を特徴付ける低い境界も提供する。
関連論文リスト
- A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。
これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。
本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-31T18:09:01Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Transpose Attack: Stealing Datasets with Bidirectional Training [4.166238443183223]
敵は正統なモデルの下で保護された学習環境からデータセットを抽出できることを示す。
本稿では,感染モデルを検出するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:14:50Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - Tools for Verifying Neural Models' Training Data [29.322899317216407]
The Proof-of-Training-Data”では、モデルトレーナーがモデルの重みを発生させたトレーニングデータの検証を納得させることができる。
検証手順が多種多様な攻撃をキャッチできることを実験的に示す。
論文 参考訳(メタデータ) (2023-07-02T23:27:00Z) - D\'etection d'Objets dans les documents num\'eris\'es par r\'eseaux de
neurones profonds [0.0]
本研究では,テキスト行の検出,動作分割,筆記支援など,文書レイアウト解析に関連する複数のタスクについて検討する。
2つの異なるアプローチに従う2つのディープニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2023-01-27T14:45:45Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - A Non-Parametric Test to Detect Data-Copying in Generative Models [31.596356325042038]
生成モデルはトレーニングサンプルを記憶し、その小さなバリエーションを出力する。
トレーニングセット,対象分布から分離したサンプル,モデルから生成されたサンプルを用いて,データコピーを検出するための3つのサンプル非パラメトリックテストを提供する。
論文 参考訳(メタデータ) (2020-04-12T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。