論文の概要: Image Captions are Natural Prompts for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2307.08526v2
- Date: Mon, 23 Jun 2025 16:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.109529
- Title: Image Captions are Natural Prompts for Text-to-Image Models
- Title(参考訳): 画像キャプションはテキスト・ツー・イメージ・モデルのための自然なプロンプトである
- Authors: Shiye Lei, Hao Chen, Sen Zhang, Bo Zhao, Dacheng Tao,
- Abstract要約: テキストから画像への生成モデルでは,手作りのプロンプトで情報学習データを合成することは困難である。
我々は,ImageNet分類によって検証された,シンプルで効果的な手法を提案する。
この単純なキャプションは,合成データの情報性を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 53.529592120988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of Artificial Intelligence Generated Content (AIGC), it has become a common practice to train models on synthetic data due to data-scarcity and privacy leakage problems. Owing to massive and diverse information conveyed in real images, it is challenging for text-to-image generative models to synthesize informative training data with hand-crafted prompts. Considering the impressive ability of large generative models, could such models directly synthesize good training images for prediction tasks with proper prompts? We offer an affirmative response to this question by proposing a simple yet effective method, validated through ImageNet classification. Specifically, we caption each real image with the advanced captioning model to obtain informative and faithful prompts that extract class-relevant information and clarify the polysemy of class names. The image captions and class names are concatenated to prompt generative models for training image synthesis. We show that this simple caption incorporation significantly boosts the informativeness of synthetic data therefore enhancing downstream model generalization. More importantly, besides improvements in data augmentation and privacy preservation, our experiments demonstrate that synthesized images can exceed real data in terms of out-of-distribution robustness.
- Abstract(参考訳): AIGC(Artificial Intelligence Generated Content)の急速な発展に伴い、データスカシティとプライバシリークの問題により、合成データのモデルトレーニングが一般的になった。
実画像で伝達される多種多様な情報により、手作りのプロンプトで情報学習データを合成するテキスト・ツー・イメージ生成モデルが困難である。
大きな生成モデルの印象的な能力を考えると、そのようなモデルは適切なプロンプトで予測タスクのための優れたトレーニング画像を直接的に合成できるだろうか?
我々は、ImageNet分類によって検証された単純で効果的な方法を提案することにより、この問題に対する肯定的な回答を提供する。
具体的には、各実画像に高度なキャプションモデルでキャプションを行い、クラス関連情報を抽出し、クラス名の多義性を明らかにする情報的かつ忠実なプロンプトを得る。
画像キャプションとクラス名は連結され、画像合成を訓練するための生成モデルが促される。
この単純なキャプションの導入により,合成データの情報性が大幅に向上し,下流モデルの一般化が促進されることを示す。
さらに重要なことは、データ強化とプライバシー保護の改善に加えて、我々の実験は、合成された画像が配布外ロバスト性の観点から実際のデータを超えることを実証している。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Synthetic-to-Real Domain Adaptation using Contrastive Unpaired
Translation [28.19031441659854]
手動のアノテーションを使わずにトレーニングデータを取得するための多段階手法を提案する。
3Dオブジェクトメッシュから,現代的な合成パイプラインを用いて画像を生成する。
合成画像の実際の領域への適応に最先端のイメージ・ツー・イメージ変換法を用いる。
論文 参考訳(メタデータ) (2022-03-17T17:13:23Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。