論文の概要: Image Captions are Natural Prompts for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2307.08526v1
- Date: Mon, 17 Jul 2023 14:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 12:44:20.732543
- Title: Image Captions are Natural Prompts for Text-to-Image Models
- Title(参考訳): 画像キャプションはテキストから画像へのモデルの自然なプロンプトである
- Authors: Shiye Lei, Hao Chen, Sen Zhang, Bo Zhao and Dacheng Tao
- Abstract要約: 本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 70.30915140413383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of Artificial Intelligence Generated Content
(AIGC), it has become common practice in many learning tasks to train or
fine-tune large models on synthetic data due to the data-scarcity and privacy
leakage problems. Albeit promising with unlimited data generation, owing to
massive and diverse information conveyed in real images, it is challenging for
text-to-image generative models to synthesize informative training data with
hand-crafted prompts, which usually leads to inferior generalization
performance when training downstream models. In this paper, we theoretically
analyze the relationship between the training effect of synthetic data and the
synthetic data distribution induced by prompts. Then we correspondingly propose
a simple yet effective method that prompts text-to-image generative models to
synthesize more informative and diverse training data. Specifically, we caption
each real image with the advanced captioning model to obtain informative and
faithful prompts that extract class-relevant information and clarify the
polysemy of class names. The image captions and class names are concatenated to
prompt generative models for training image synthesis. Extensive experiments on
ImageNette, ImageNet-100, and ImageNet-1K verify that our method significantly
improves the performance of models trained on synthetic training data, i.e.,
10% classification accuracy improvements on average.
- Abstract(参考訳): aigc(artificial intelligence generated content)の急速な発展により、多くの学習タスクにおいて、データカーシティとプライバシリークの問題により、合成データにおける大規模モデルを訓練または微調整することが一般的になっている。
実画像に伝達される多種多様な情報により、無制限なデータ生成を約束する一方で、手作りのプロンプトで情報伝達訓練データを合成するテキスト・ツー・イメージ生成モデルは困難であり、通常、下流モデルのトレーニングでは一般化性能が劣る。
本稿では,合成データの学習効果とプロンプトによる合成データ分布との関係を理論的に解析する。
次に,テキストから画像への生成モデルを用いて,より有益で多様なトレーニングデータを合成する簡易かつ効果的な手法を提案する。
具体的には、各実画像に高度なキャプションモデルでキャプションを行い、クラス関連情報を抽出し、クラス名の多義性を明らかにする情報的かつ忠実なプロンプトを得る。
画像キャプションとクラス名は連結され、画像合成を訓練するための生成モデルが促される。
ImageNette, ImageNet-100, ImageNet-1Kの広範囲な実験により, 合成トレーニングデータに基づくモデルの学習精度が, 平均で10%向上することを確認した。
関連論文リスト
- Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and
Image Embeddings [16.90107647942174]
高品質な人ラベル画像キャプチャーデータセットの作成は、視覚言語モデル(VLM)の開発において大きなボトルネックとなる。
本稿では,Large Language Models(LLMs)と画像生成モデルの強みを活用して,効率的なVLM学習のための合成画像テキストペアを作成する手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Synthetic-to-Real Domain Adaptation using Contrastive Unpaired
Translation [28.19031441659854]
手動のアノテーションを使わずにトレーニングデータを取得するための多段階手法を提案する。
3Dオブジェクトメッシュから,現代的な合成パイプラインを用いて画像を生成する。
合成画像の実際の領域への適応に最先端のイメージ・ツー・イメージ変換法を用いる。
論文 参考訳(メタデータ) (2022-03-17T17:13:23Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。