論文の概要: Image Captions are Natural Prompts for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2307.08526v1
- Date: Mon, 17 Jul 2023 14:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 12:44:20.732543
- Title: Image Captions are Natural Prompts for Text-to-Image Models
- Title(参考訳): 画像キャプションはテキストから画像へのモデルの自然なプロンプトである
- Authors: Shiye Lei, Hao Chen, Sen Zhang, Bo Zhao and Dacheng Tao
- Abstract要約: 本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 70.30915140413383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of Artificial Intelligence Generated Content
(AIGC), it has become common practice in many learning tasks to train or
fine-tune large models on synthetic data due to the data-scarcity and privacy
leakage problems. Albeit promising with unlimited data generation, owing to
massive and diverse information conveyed in real images, it is challenging for
text-to-image generative models to synthesize informative training data with
hand-crafted prompts, which usually leads to inferior generalization
performance when training downstream models. In this paper, we theoretically
analyze the relationship between the training effect of synthetic data and the
synthetic data distribution induced by prompts. Then we correspondingly propose
a simple yet effective method that prompts text-to-image generative models to
synthesize more informative and diverse training data. Specifically, we caption
each real image with the advanced captioning model to obtain informative and
faithful prompts that extract class-relevant information and clarify the
polysemy of class names. The image captions and class names are concatenated to
prompt generative models for training image synthesis. Extensive experiments on
ImageNette, ImageNet-100, and ImageNet-1K verify that our method significantly
improves the performance of models trained on synthetic training data, i.e.,
10% classification accuracy improvements on average.
- Abstract(参考訳): aigc(artificial intelligence generated content)の急速な発展により、多くの学習タスクにおいて、データカーシティとプライバシリークの問題により、合成データにおける大規模モデルを訓練または微調整することが一般的になっている。
実画像に伝達される多種多様な情報により、無制限なデータ生成を約束する一方で、手作りのプロンプトで情報伝達訓練データを合成するテキスト・ツー・イメージ生成モデルは困難であり、通常、下流モデルのトレーニングでは一般化性能が劣る。
本稿では,合成データの学習効果とプロンプトによる合成データ分布との関係を理論的に解析する。
次に,テキストから画像への生成モデルを用いて,より有益で多様なトレーニングデータを合成する簡易かつ効果的な手法を提案する。
具体的には、各実画像に高度なキャプションモデルでキャプションを行い、クラス関連情報を抽出し、クラス名の多義性を明らかにする情報的かつ忠実なプロンプトを得る。
画像キャプションとクラス名は連結され、画像合成を訓練するための生成モデルが促される。
ImageNette, ImageNet-100, ImageNet-1Kの広範囲な実験により, 合成トレーニングデータに基づくモデルの学習精度が, 平均で10%向上することを確認した。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Synthetic-to-Real Domain Adaptation using Contrastive Unpaired
Translation [28.19031441659854]
手動のアノテーションを使わずにトレーニングデータを取得するための多段階手法を提案する。
3Dオブジェクトメッシュから,現代的な合成パイプラインを用いて画像を生成する。
合成画像の実際の領域への適応に最先端のイメージ・ツー・イメージ変換法を用いる。
論文 参考訳(メタデータ) (2022-03-17T17:13:23Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。