論文の概要: How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold
- arxiv url: http://arxiv.org/abs/2410.15002v1
- Date: Sat, 19 Oct 2024 06:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:51.047002
- Title: How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold
- Title(参考訳): ヴァン・ゴッホに要するバン・ゴッホは何人?
- Authors: Sahil Verma, Royi Rassin, Arnav Das, Gantavya Bhatt, Preethi Seshadri, Chirag Shah, Jeff Bilmes, Hannaneh Hajishirzi, Yanai Elazar,
- Abstract要約: 学習データセットにおける概念の頻度とモデルを模倣する能力の関係について検討する。
我々は,複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく,模倣閾値を推定する効率的な手法を提案する。
- 参考スコア(独自算出の注目度): 50.33428591760124
- License:
- Abstract: Text-to-image models are trained using large datasets collected by scraping image-text pairs from the internet. These datasets often include private, copyrighted, and licensed material. Training models on such datasets enables them to generate images with such content, which might violate copyright laws and individual privacy. This phenomenon is termed imitation -- generation of images with content that has recognizable similarity to its training images. In this work we study the relationship between a concept's frequency in the training dataset and the ability of a model to imitate it. We seek to determine the point at which a model was trained on enough instances to imitate a concept -- the imitation threshold. We posit this question as a new problem: Finding the Imitation Threshold (FIT) and propose an efficient approach that estimates the imitation threshold without incurring the colossal cost of training multiple models from scratch. We experiment with two domains -- human faces and art styles -- for which we create four datasets, and evaluate three text-to-image models which were trained on two pretraining datasets. Our results reveal that the imitation threshold of these models is in the range of 200-600 images, depending on the domain and the model. The imitation threshold can provide an empirical basis for copyright violation claims and acts as a guiding principle for text-to-image model developers that aim to comply with copyright and privacy laws. We release the code and data at \url{https://github.com/vsahil/MIMETIC-2.git} and the project's website is hosted at \url{https://how-many-van-goghs-does-it-take.github.io}.
- Abstract(参考訳): テキストと画像のモデルは、インターネットから画像とテキストのペアをスクラップすることで収集された大規模なデータセットを使用してトレーニングされる。
これらのデータセットは、しばしば、プライベート、著作権付き、およびライセンスされた資料を含む。
このようなデータセットのトレーニングモデルは、著作権法や個人のプライバシーを侵害する可能性のある、そのようなコンテンツで画像を生成することを可能にする。
この現象は、トレーニング画像と認識可能な類似性を持つコンテンツを生成することで、模倣と呼ばれる。本研究では、トレーニングデータセットにおける概念の頻度と、それを模倣するモデルの能力との関係について研究する。我々は、モデルが十分なインスタンスで訓練された時点、つまり模倣しきい値を決定する。
我々は、この問題を新しい問題として、Imitation Threshold(FIT)を見つけ、複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく、模倣閾値を推定する効率的なアプローチを提案する。
私たちは、人間の顔とアートスタイルという2つのドメインを実験し、4つのデータセットを作成し、2つの事前学習データセットでトレーニングされた3つのテキスト・ツー・イメージモデルを評価しました。
その結果,これらのモデルの模倣閾値は,領域やモデルによって200~600画像の範囲内であることが判明した。
模倣しきい値は、著作権侵害の主張に対する実証的な根拠を提供し、著作権およびプライバシ法に従うことを目的としたテキスト・ツー・イメージ・モデル開発者の指針となる。
We release the code and data at \url{https://github.com/vsahil/MIMETIC-2.git} and the project's website is host at \url{https://how-many-van-goghs-does-it-github.io}
関連論文リスト
- Not Every Image is Worth a Thousand Words: Quantifying Originality in Stable Diffusion [21.252145402613472]
本研究は,テキスト・ツー・イメージ(T2I)生成拡散モデルにおける原点の定量化という課題に対処する。
本稿では,テキストのインバージョンを利用して画像の原点度をモデルによる再構成に必要なトークン数に基づいて測定する手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T14:42:02Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - Fake it till you make it: Learning transferable representations from
synthetic ImageNet clones [30.264601433216246]
ImageNetクローンは、合成画像と実画像で訓練されたモデルとのギャップの大部分を埋めることができることを示す。
合成画像上で訓練されたモデルは,強い一般化特性を示し,実際のデータで訓練されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-12-16T11:44:01Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。