論文の概要: How far can we go with ImageNet for Text-to-Image generation?
- arxiv url: http://arxiv.org/abs/2502.21318v2
- Date: Wed, 21 May 2025 15:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.802418
- Title: How far can we go with ImageNet for Text-to-Image generation?
- Title(参考訳): ImageNet for Text-to-Image Generationはどこまで使えるのか?
- Authors: L. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton,
- Abstract要約: 我々は、よく設計されたテキストと画像拡張で拡張されたImageNetのみを使用して、大規模なWebスクラッドコレクションでトレーニングされたモデルに適合または性能良く対応できることを示す。
GenEvalではSD-XLで+1%, DPGBenchでは+0.5%, パラメータは1/10, トレーニング画像は1/1000に過ぎなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image generation models have achieved remarkable results by training on billion-scale datasets, following a `bigger is better' paradigm that prioritizes data quantity over availability (closed vs open source) and reproducibility (data decay vs established collections). We challenge this established paradigm by demonstrating that one can match or outperform models trained on massive web-scraped collections, using only ImageNet enhanced with well-designed text and image augmentations. With this much simpler setup, we achieve a +1% overall score over SD-XL on GenEval and +0.5% on DPGBench while using just 1/10th the parameters and 1/1000th the training images. This opens the way for more reproducible research as ImageNet is a widely available dataset and our standardized training setup does not require massive compute resources.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ生成モデルは、可用性(オープンソースとクローズド)と再現性(データ崩壊と確立されたコレクション)よりもデータ量を優先する‘Bigger is Better’パラダイムに従って、数十億規模のデータセットをトレーニングすることで、目覚ましい成果を上げている。
我々は、よく設計されたテキストと画像拡張で拡張されたImageNetのみを使用して、大規模なWebスクラッドコレクションでトレーニングされたモデルにマッチまたは性能を発揮できることを実証することによって、この確立されたパラダイムに挑戦する。
この非常に単純な設定で、GenEvalのSD-XLで+1%、DPGBenchで+0.5%、パラメータの1/10とトレーニングイメージの1/1000で+1%のスコアを得る。
これにより、ImageNetは広く利用可能なデータセットであり、標準化されたトレーニング設定では大量の計算リソースを必要としないため、より再現可能な研究の道を開くことができます。
関連論文リスト
- ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文 参考訳(メタデータ) (2024-12-12T18:59:53Z) - Data Extrapolation for Text-to-image Generation on Small Datasets [3.7356387436951146]
線形外挿を用いたテキスト・画像生成のための新しいデータ拡張手法を提案する。
トレーニングサンプルをオリジナルのデータセットの数十倍の規模で構築する。
我々のモデルは、CUB、オックスフォード、COCOのデータセットで7.91、9.52、および5.00のFIDスコアを達成する。
論文 参考訳(メタデータ) (2024-10-02T15:08:47Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。