論文の概要: CDI: Copyrighted Data Identification in Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.12858v1
- Date: Tue, 19 Nov 2024 21:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:32.330477
- Title: CDI: Copyrighted Data Identification in Diffusion Models
- Title(参考訳): CDI:拡散モデルにおける著作権データ同定
- Authors: Jan Dubiński, Antoni Kowalczuk, Franziska Boenisch, Adam Dziedzic,
- Abstract要約: 拡散モデル(DM)は、トレーニングのための大規模で多様なデータセットの恩恵を受ける。
このデータは、データ所有者の許可なくインターネットから取り除かれることが多いため、著作権や知的財産権保護に関する懸念が高まる。
我々は、データ所有者がデータセットを使用してDMをトレーニングするかどうかを特定するためのフレームワークであるCDIを提案する。
- 参考スコア(独自算出の注目度): 4.892675958180895
- License:
- Abstract: Diffusion Models (DMs) benefit from large and diverse datasets for their training. Since this data is often scraped from the Internet without permission from the data owners, this raises concerns about copyright and intellectual property protections. While (illicit) use of data is easily detected for training samples perfectly re-created by a DM at inference time, it is much harder for data owners to verify if their data was used for training when the outputs from the suspect DM are not close replicas. Conceptually, membership inference attacks (MIAs), which detect if a given data point was used during training, present themselves as a suitable tool to address this challenge. However, we demonstrate that existing MIAs are not strong enough to reliably determine the membership of individual images in large, state-of-the-art DMs. To overcome this limitation, we propose CDI, a framework for data owners to identify whether their dataset was used to train a given DM. CDI relies on dataset inference techniques, i.e., instead of using the membership signal from a single data point, CDI leverages the fact that most data owners, such as providers of stock photography, visual media companies, or even individual artists, own datasets with multiple publicly exposed data points which might all be included in the training of a given DM. By selectively aggregating signals from existing MIAs and using new handcrafted methods to extract features for these datasets, feeding them to a scoring model, and applying rigorous statistical testing, CDI allows data owners with as little as 70 data points to identify with a confidence of more than 99% whether their data was used to train a given DM. Thereby, CDI represents a valuable tool for data owners to claim illegitimate use of their copyrighted data.
- Abstract(参考訳): 拡散モデル(DM)は、トレーニングのための大規模で多様なデータセットの恩恵を受ける。
このデータは、データ所有者の許可なくインターネットから取り除かれることが多いため、著作権や知的財産権保護に関する懸念が高まる。
推測時にDMによって完全に再現されたトレーニングサンプルに対して(違法な)データの使用が容易に検出されるが、疑わしいDMからの出力が近いレプリカでない場合には、データ所有者がトレーニングに使用されていたかどうかを確認することははるかに困難である。
概念的には、トレーニング中に与えられたデータポイントが使用されているかどうかを検出するメンバシップ推論攻撃(MIA)は、この課題に対処するための適切なツールとして自分自身を提示する。
しかし、既存のMIAは、大規模かつ最先端のDMにおいて、個々の画像のメンバシップを確実に決定できるほど強力ではないことを実証する。
この制限を克服するために、データ所有者がデータセットを使用して特定のDMをトレーニングしているかどうかを特定するためのフレームワークであるCDIを提案する。
CDIはデータセット推論技術、すなわち、単一のデータポイントからのメンバシップ信号を使用する代わりに、ストック写真、ビジュアルメディア会社、さらには個々のアーティストなど、ほとんどのデータ所有者が、複数の公開データポイントを持つデータセットを所有しているという事実を活用している。
既存のMIAからの信号を選択的に集約し、これらのデータセットの特徴を抽出し、スコアリングモデルに供給し、厳密な統計的テストを適用することで、CDIは、データ所有者が与えられたDMのトレーニングに使用したかどうかを99%以上の信頼性で識別することを可能にする。
これにより、CDIは、データ所有者が著作権のあるデータの不正使用を主張する貴重なツールである。
関連論文リスト
- Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Catch Me if You Can: Detecting Unauthorized Data Use in Deep Learning Models [5.724311218570013]
ユーザは、自分のデータが自分の同意なしにDLモデルのトレーニングに使用されるかどうかを、限定的にコントロールすることが多い。
この研究は、実践的なデータ証明ツールである MembershipTracker を提案する。
MembershipTrackerは、ターゲットデータを小さく、ターゲットとする変更でマークする軽量なデータマーキングコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-09-10T07:31:56Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Private data sharing between decentralized users through the privGAN
architecture [1.3923892290096642]
本研究では、データ所有者が実際のデータを共有することなく、データの合成版や偽版を共有する方法を提案する。
このアプローチが、さまざまなサイズのサブセットに適用されると、実際のデータセットのユーティリティよりも、所有者の利便性が向上することを示す。
論文 参考訳(メタデータ) (2020-09-14T22:06:13Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。