Fugu-MT 論文翻訳(概要): Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation

論文の概要: Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2406.09305v1
Date: Thu, 13 Jun 2024 16:40:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 16:45:33.096999
Title: Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation
Title（参考訳）: Toffee: 主観駆動型テキスト画像生成のための100万単位の効率的なデータセット構築
Authors: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun,
Abstract要約: 我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
参考スコア（独自算出の注目度）: 58.09421301921607
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In subject-driven text-to-image generation, recent works have achieved superior performance by training the model on synthetic datasets containing numerous image pairs. Trained on these datasets, generative models can produce text-aligned images for specific subject from arbitrary testing image in a zero-shot manner. They even outperform methods which require additional fine-tuning on testing images. However, the cost of creating such datasets is prohibitive for most researchers. To generate a single training pair, current methods fine-tune a pre-trained text-to-image model on the subject image to capture fine-grained details, then use the fine-tuned model to create images for the same subject based on creative text prompts. Consequently, constructing a large-scale dataset with millions of subjects can require hundreds of thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient method to construct datasets for subject-driven editing and generation. Specifically, our dataset construction does not need any subject-level fine-tuning. After pre-training two generative models, we are able to generate infinite number of high-quality samples. We construct the first large-scale dataset for subject-driven image editing and generation, which contains 5 million image pairs, text prompts, and masks. Our dataset is 5 times the size of previous largest dataset, yet our cost is tens of thousands of GPU hours lower. To test the proposed dataset, we also propose a model which is capable of both subject-driven image editing and generation. By simply training the model on our proposed dataset, it obtains competitive results, illustrating the effectiveness of the proposed dataset construction framework.
Abstract（参考訳）: 主題駆動のテキスト・ツー・イメージ生成では、多数の画像ペアを含む合成データセット上でモデルをトレーニングすることで、最近の研究は優れたパフォーマンスを実現している。これらのデータセットに基づいてトレーニングされた生成モデルは、任意のテスト画像から特定の対象に対してゼロショットでテキスト整列画像を生成することができる。さらに、テストイメージの微調整が必要なメソッドよりも優れています。しかし、そのようなデータセットを作成するコストは、ほとんどの研究者にとって禁じられている。単一のトレーニングペアを生成するために、現行の手法は、被写体画像に予め訓練済みのテキスト・ツー・イメージモデルを微調整し、細粒度の詳細をキャプチャし、次いで、細調整されたモデルを使用して、創造的なテキストプロンプトに基づいて同じ被写体のための画像を生成する。そのため、数百万の被験者で大規模なデータセットを構築するには、数十万のGPU時間が必要になる。この問題に対処するために、主観的編集・生成のためのデータセットを効率的に構築するToffeeを提案する。具体的には、データセットの構築には主観レベルの微調整は必要ない。 2つの生成モデルを事前学習した後、無限個の高品質なサンプルを生成することができる。我々は,500万枚の画像対,テキストプロンプト,マスクを含む,主観的画像編集・生成のための最初の大規模データセットを構築した。データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。また、提案したデータセットをテストするために、主観的画像編集と生成の両方が可能なモデルを提案する。提案したデータセット上でモデルを簡単にトレーニングすることにより,提案したデータセット構築フレームワークの有効性を示す競争結果が得られる。

関連論文リスト

How far can we go with ImageNet for Text-to-Image generation? [0.0]
我々は、よく設計されたテキストと画像拡張で拡張されたImageNetのみを使用して、大規模なWebスクラッドコレクションでトレーニングされたモデルに適合または性能良く対応できることを示す。 GenEvalではSD-XLで+1%, DPGBenchでは+0.5%, パラメータは1/10, トレーニング画像は1/1000に過ぎなかった。
論文参考訳（メタデータ） (2025-02-28T18:59:42Z)
Diffusion Self-Distillation for Zero-Shot Customized Image Generation [40.11194010431839]
Diffusion Self-Distillationは、テキスト条件のイメージ・ツー・イメージタスクのための独自のデータセットを生成する方法である。まず、画像のグリッドを作成するために、テキスト・ツー・イメージ拡散モデルのコンテキスト内生成機能を利用する。次に、キュレートされたペア化されたデータセットを使用して、テキストからイメージへのモデルに微調整する。
論文参考訳（メタデータ） (2024-11-27T18:58:52Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文参考訳（メタデータ） (2023-06-15T17:59:51Z)
HADA: A Graph-based Amalgamation Framework in Image-text Retrieval [2.3013879633693266]
本稿では,事前学習したモデルを組み合わせることで,より優れた結果が得られる,コンパクトなグラフベースフレームワークHADAを提案する。 Flickr30kデータセットの評価指標から,HADAはベースライン性能を3.6%以上向上できることを示した。
論文参考訳（メタデータ） (2023-01-11T22:25:20Z)
Weakly Supervised Annotations for Multi-modal Greeting Cards Dataset [8.397847537464534]
我々は,Greeting Cardsデータセットから抽象的な視覚概念を学ぶために,事前訓練された画像とテキスト埋め込みから特徴を集約することを提案する。提案したデータセットは、事前訓練されたテキスト・ツー・イメージ生成モデルを用いて、挨拶カード画像を生成するのにも有用である。
論文参考訳（メタデータ） (2022-12-01T20:07:52Z)
Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文参考訳（メタデータ） (2022-10-18T12:49:04Z)
KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文参考訳（メタデータ） (2022-04-06T14:13:35Z)
WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文参考訳（メタデータ） (2022-03-22T06:12:20Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)
DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。 GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文参考訳（メタデータ） (2021-04-13T20:08:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。