論文の概要: CAP: Detecting Unauthorized Data Usage in Generative Models via Prompt Generation
- arxiv url: http://arxiv.org/abs/2410.05819v1
- Date: Tue, 8 Oct 2024 08:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:39:56.686269
- Title: CAP: Detecting Unauthorized Data Usage in Generative Models via Prompt Generation
- Title(参考訳): CAP: プロンプト生成による生成モデルにおける不正なデータ使用の検出
- Authors: Daniela Gallo, Angelica Liguori, Ettore Ritacco, Luca Caviglione, Fabrizio Durante, Giuseppe Manco,
- Abstract要約: Copyright Audit via Prompts Generation (CAP)は、MLモデルが不正なデータでトレーニングされているかどうかを自動的にテストするフレームワークである。
具体的には、著作権のあるコンテンツを明らかにするためのモデルに適切なキーを生成するアプローチを考案する。
有効性を証明するため,4つのIoTシナリオで収集した測定値について広範な評価を行った。
- 参考スコア(独自算出の注目度): 1.6141139250981018
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To achieve accurate and unbiased predictions, Machine Learning (ML) models rely on large, heterogeneous, and high-quality datasets. However, this could raise ethical and legal concerns regarding copyright and authorization aspects, especially when information is gathered from the Internet. With the rise of generative models, being able to track data has become of particular importance, especially since they may (un)intentionally replicate copyrighted contents. Therefore, this work proposes Copyright Audit via Prompts generation (CAP), a framework for automatically testing whether an ML model has been trained with unauthorized data. Specifically, we devise an approach to generate suitable keys inducing the model to reveal copyrighted contents. To prove its effectiveness, we conducted an extensive evaluation campaign on measurements collected in four IoT scenarios. The obtained results showcase the effectiveness of CAP, when used against both realistic and synthetic datasets.
- Abstract(参考訳): 正確で偏りのない予測を実現するため、機械学習(ML)モデルは大規模で異質で高品質なデータセットに依存している。
しかし、これは、特にインターネットから情報が収集された場合、著作権と認可に関する倫理的および法的懸念を引き起こす可能性がある。
生成モデルの台頭により、特に著作権のあるコンテンツを意図せず複製できるため、データの追跡が特に重要になっている。
そこで本研究では,MLモデルが不正なデータでトレーニングされているかどうかを自動テストするフレームワークであるPrompts Generation (CAP) による著作権監査を提案する。
具体的には、著作権のあるコンテンツを明らかにするためのモデルに適切なキーを生成するアプローチを考案する。
有効性を証明するため,4つのIoTシナリオで収集した測定値について広範な評価を行った。
その結果,実データと合成データの両方に対してCAPの有効性が示された。
関連論文リスト
- SoK: Dataset Copyright Auditing in Machine Learning Systems [23.00196984807359]
本稿では,現在のデータセット著作権監査ツールについて検討し,その有効性と限界について検討する。
本稿では,データセットによる著作権監査研究を,侵入的手法と非侵入的手法の2つに分類する。
結果の要約として、現在の文献における詳細な参照テーブル、キーポイントのハイライト、未解決問題について紹介する。
論文 参考訳(メタデータ) (2024-10-22T02:06:38Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文 参考訳(メタデータ) (2024-06-20T02:02:44Z) - Detecting Generative Parroting through Overfitting Masked Autoencoders [2.6966307157568425]
本研究は,Masked Autoencoder (MAE) を用いた新しい手法を提案する。
トレーニングデータセットの平均損失に基づいて検出しきい値を確立し、修正データセットにおけるオウム内容の正確な識別を可能にする。
予備評価の結果は有望な結果を示し,提案手法が倫理的利用を確実にし,生成モデルの法的遵守を強化する可能性を示唆している。
論文 参考訳(メタデータ) (2024-03-27T23:10:33Z) - Generative Models are Self-Watermarked: Declaring Model Authentication
through Re-Generation [17.88043926057354]
データオーナシップの検証は、特に生成したデータの不正な再利用の場合、非常に困難な問題を引き起こします。
私たちの研究は、個々のサンプルからでもデータの再利用を検出することに集中しています。
本稿では, 再生成によるデータ所有を考慮に入れた説明可能な検証手法を提案し, さらに, 反復的データ再生による生成モデルにおけるこれらの指紋の増幅を行う。
論文 参考訳(メタデータ) (2024-02-23T10:48:21Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training [23.99093718956372]
本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
論文 参考訳(メタデータ) (2024-01-01T06:04:52Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。