論文の概要: How far can we go with ImageNet for Text-to-Image generation?
- arxiv url: http://arxiv.org/abs/2502.21318v1
- Date: Fri, 28 Feb 2025 18:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:38.939599
- Title: How far can we go with ImageNet for Text-to-Image generation?
- Title(参考訳): ImageNet for Text-to-Image Generationはどこまで使えるのか?
- Authors: L. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton,
- Abstract要約: 最近のテキスト・ツー・イメージ(T2I)生成モデルは、数十億規模のデータセットのトレーニングによって、顕著な成果を上げている。
我々は、この確立されたパラダイムに挑戦し、大規模なWebスクラッドコレクションでトレーニングされたモデルに、小さくてよく計算されたデータセットの戦略的データ拡張が適合または優れることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent text-to-image (T2I) generation models have achieved remarkable results by training on billion-scale datasets, following a `bigger is better' paradigm that prioritizes data quantity over quality. We challenge this established paradigm by demonstrating that strategic data augmentation of small, well-curated datasets can match or outperform models trained on massive web-scraped collections. Using only ImageNet enhanced with well-designed text and image augmentations, we achieve a +2 overall score over SD-XL on GenEval and +5 on DPGBench while using just 1/10th the parameters and 1/1000th the training images. Our results suggest that strategic data augmentation, rather than massive datasets, could offer a more sustainable path forward for T2I generation.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)生成モデルは、品質よりもデータ量を優先する‘より大きい方がよい’パラダイムに従って、数十億規模のデータセットをトレーニングすることで、驚くべき成果を上げている。
我々は、この確立されたパラダイムに挑戦し、大規模なWebスクラッドコレクションでトレーニングされたモデルに、小さくてよく計算されたデータセットの戦略的データ拡張が適合または優れることを示す。
GenEvalではSD-XLで+2, DPGBenchでは+5で, パラメータは1/10, トレーニングイメージは1/1000のみである。
我々の結果は、膨大なデータセットではなく、戦略的データ拡張が、T2I世代にとってより持続可能なパスを提供する可能性があることを示唆している。
関連論文リスト
- Text2Earth: Unlocking Text-driven Remote Sensing Image Generation with a Global-Scale Dataset and a Foundation Model [27.637853981925705]
本稿では,Git-10MデータセットとText2Earthファウンデーションモデルという,2つの重要なコントリビューションを示す。
Git-10Mは、1000万のイメージテキストペアからなる、世界規模のイメージテキストデータセットである。
我々は,グローバルなリモートセンシングシーンをモデル化するための拡散フレームワークに基づく13億のパラメータ生成基盤モデルであるText2Earthを提案する。
論文 参考訳(メタデータ) (2025-01-01T16:56:43Z) - SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文 参考訳(メタデータ) (2024-12-12T18:59:53Z) - Data Extrapolation for Text-to-image Generation on Small Datasets [3.7356387436951146]
線形外挿を用いたテキスト・画像生成のための新しいデータ拡張手法を提案する。
トレーニングサンプルをオリジナルのデータセットの数十倍の規模で構築する。
我々のモデルは、CUB、オックスフォード、COCOのデータセットで7.91、9.52、および5.00のFIDスコアを達成する。
論文 参考訳(メタデータ) (2024-10-02T15:08:47Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness
with Dataset Reinforcement [68.44100784364987]
本研究では、強化データセット上でトレーニングされたモデルアーキテクチャの精度が、ユーザにとって追加のトレーニングコストなしで向上するように、データセットを改善する戦略を提案する。
ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化されたデータセットCIFAR-100+、Flowers-102+、Food-101+を作成します。
ImageNet+でトレーニングされたモデルは、より正確で、堅牢で、校正され、下流タスクにうまく転送されます。
論文 参考訳(メタデータ) (2023-03-15T23:10:17Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。