論文の概要: Scaling Laws of Synthetic Images for Model Training ... for Now
- arxiv url: http://arxiv.org/abs/2312.04567v1
- Date: Thu, 7 Dec 2023 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:24:45.229966
- Title: Scaling Laws of Synthetic Images for Model Training ... for Now
- Title(参考訳): モデルトレーニングのための合成画像のスケーリング則...
- Authors: Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola,
Yonglong Tian
- Abstract要約: 本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
- 参考スコア(独自算出の注目度): 54.43596959598466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent significant advances in text-to-image models unlock the possibility of
training vision systems using synthetic images, potentially overcoming the
difficulty of collecting curated data at scale. It is unclear, however, how
these models behave at scale, as more synthetic data is added to the training
set. In this paper we study the scaling laws of synthetic images generated by
state of the art text-to-image models, for the training of supervised models:
image classifiers with label supervision, and CLIP with language supervision.
We identify several factors, including text prompts, classifier-free guidance
scale, and types of text-to-image models, that significantly affect scaling
behavior. After tuning these factors, we observe that synthetic images
demonstrate a scaling trend similar to, but slightly less effective than, real
images in CLIP training, while they significantly underperform in scaling when
training supervised image classifiers. Our analysis indicates that the main
reason for this underperformance is the inability of off-the-shelf
text-to-image models to generate certain concepts, a limitation that
significantly impairs the training of image classifiers. Our findings also
suggest that scaling synthetic data can be particularly effective in scenarios
such as: (1) when there is a limited supply of real images for a supervised
problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the
evaluation dataset diverges significantly from the training data, indicating
the out-of-distribution scenario, or (3) when synthetic data is used in
conjunction with real images, as demonstrated in the training of CLIP models.
- Abstract(参考訳): テキストから画像へのモデルの最近の重要な進歩は、合成画像を用いた視覚訓練システムの可能性を解き放ち、大規模なデータ収集の難しさを克服する可能性がある。
しかし、トレーニングセットにより多くの合成データが付加されるため、これらのモデルが大規模にどのように振る舞うかは明らかではない。
本稿では,テキスト・画像モデルの状態から生成した合成画像のスケーリング法を,ラベル管理付き画像分類器と言語指導付きCLIPを用いて,教師付きモデルのトレーニングのために検討する。
我々は,テキストプロンプト,分類子なし指導尺度,テキスト・ツー・イメージ・モデルの種類など,スケーリング行動に大きな影響を及ぼす要因を同定する。
これらの因子を調整した後、合成画像はCLIPトレーニングの実際の画像と似ているが、少し効果の低いスケーリング傾向を示すが、教師付き画像分類器のトレーニングではかなり性能が低い。
このアンダーパフォーマンスの主な原因は,画像分類器の訓練を著しく損なうような,特定の概念を生成するために市販のテキスト・ツー・イメージモデルが使えないことである。
また,(1)教師付き問題に対する実画像の供給が限られている場合(例:ImageNetで0.5万枚未満の画像),(2)評価データセットがトレーニングデータから大きく分岐する場合,(3)合成データが実画像と連動して使用される場合,などのシナリオにおいて,合成データのスケーリングが特に有効であることが示唆された。
関連論文リスト
- DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。