論文の概要: How far can we go with ImageNet for Text-to-Image generation?
- arxiv url: http://arxiv.org/abs/2502.21318v3
- Date: Thu, 02 Oct 2025 13:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 21:54:12.741875
- Title: How far can we go with ImageNet for Text-to-Image generation?
- Title(参考訳): ImageNet for Text-to-Image Generationはどこまで使えるのか?
- Authors: L. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton,
- Abstract要約: 我々は、よく設計されたテキストと画像拡張で拡張されたImageNetのみを用いて、大規模なWebスクラッドコレクションでトレーニングされたモデルの能力を実現することができることを示す。
この非常に単純な設定で、GenEvalのSD-XLで+6%、DPGBenchで+5%、パラメータの1/10とトレーニングイメージの1/1000で+6%のスコアを得る。
- 参考スコア(独自算出の注目度): 0.5437050212139086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image (T2I) generation models have achieved remarkable sucess by training on billion-scale datasets, following a `bigger is better' paradigm that prioritizes data quantity over availability (closed vs open source) and reproducibility (data decay vs established collections). We challenge this established paradigm by demonstrating that one can achieve capabilities of models trained on massive web-scraped collections, using only ImageNet enhanced with well-designed text and image augmentations. With this much simpler setup, we achieve a +6% overall score over SD-XL on GenEval and +5% on DPGBench while using just 1/10th the parameters and 1/1000th the training images. We also show that ImageNet pretrained models can be finetuned on task specific datasets (like for high resolution aesthetic applications) with good results, indicating that ImageNet is sufficient for acquiring general capabilities. This opens the way for more reproducible research as ImageNet is widely available and the proposed standardized training setup only requires 500 hours of H100 to train a text-to-image model.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)生成モデルは、可用性(クローズド対オープンソース)と再現性(データ崩壊対確立されたコレクション)よりもデータ量を優先する、'Bigger is Better'パラダイムに従って、数十億規模のデータセットをトレーニングすることで、驚くべきサプライズを達成した。
我々は、よく設計されたテキストと画像拡張を備えたImageNetのみを使用して、大規模なWebスクラッドコレクションでトレーニングされたモデルの能力を実現できることを示すことによって、この確立されたパラダイムに挑戦する。
この非常に単純な設定で、GenEvalのSD-XLで+6%、DPGBenchで+5%、パラメータの1/10とトレーニングイメージの1/1000で+6%のスコアを得る。
また,ImageNetの事前学習モデルでは,タスク固有のデータセット(高解像度の審美的アプリケーションなど)に対して,良好な結果が得られることを示す。
これにより、ImageNetが広く利用可能であり、標準化されたトレーニング設定では、テキスト・ツー・イメージモデルのトレーニングに500時間のH100しか必要とされないため、より再現性の高い研究の道を開くことができる。
関連論文リスト
- ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [51.439283251703635]
計算資源やデータトレーニングの限界内で、複数のタスクに対処できる優れた一般認識モデルを作成します。
DICEPTIONが複数の知覚タスクに効果的に取り組み、最先端のモデルと同等の性能を達成していることを示す。
異なるインスタンスにランダムな色を割り当てる戦略は、エンティティセグメンテーションとセマンティックセグメンテーションの両方において非常に効果的であることを示す。
論文 参考訳(メタデータ) (2025-02-24T13:51:06Z) - SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文 参考訳(メタデータ) (2024-12-12T18:59:53Z) - Data Extrapolation for Text-to-image Generation on Small Datasets [3.7356387436951146]
線形外挿を用いたテキスト・画像生成のための新しいデータ拡張手法を提案する。
トレーニングサンプルをオリジナルのデータセットの数十倍の規模で構築する。
我々のモデルは、CUB、オックスフォード、COCOのデータセットで7.91、9.52、および5.00のFIDスコアを達成する。
論文 参考訳(メタデータ) (2024-10-02T15:08:47Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z) - ImageNet-21K Pretraining for the Masses [12.339884639594624]
ImageNet-1Kは、コンピュータビジョンタスクのためのディープラーニングモデルを事前訓練するための主要なデータセットである。
ImageNet-21Kデータセットにはより多くの写真とクラスが含まれている。
本稿では,ImageNet-21Kの高品質な事前トレーニングを実現することを目的とする。
論文 参考訳(メタデータ) (2021-04-22T10:10:14Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。