論文の概要: Lafite2: Few-shot Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2210.14124v1
- Date: Tue, 25 Oct 2022 16:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:29:46.879101
- Title: Lafite2: Few-shot Text-to-Image Generation
- Title(参考訳): Lafite2: テキストから画像へのわずかな生成
- Authors: Yufan Zhou, Chunyuan Li, Changyou Chen, Jianfeng Gao, Jinhui Xu
- Abstract要約: 本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
- 参考スコア(独自算出の注目度): 132.14211027057766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation models have progressed considerably in recent years,
which can now generate impressive realistic images from arbitrary text. Most of
such models are trained on web-scale image-text paired datasets, which may not
be affordable for many researchers. In this paper, we propose a novel method
for pre-training text-to-image generation model on image-only datasets. It
considers a retrieval-then-optimization procedure to synthesize pseudo text
features: for a given image, relevant pseudo text features are first retrieved,
then optimized for better alignment. The low requirement of the proposed method
yields high flexibility and usability: it can be beneficial to a wide range of
settings, including the few-shot, semi-supervised and fully-supervised
learning; it can be applied on different models including generative
adversarial networks (GANs) and diffusion models. Extensive experiments
illustrate the effectiveness of the proposed method. On MS-COCO dataset, our
GAN model obtains Fr\'echet Inception Distance (FID) of 6.78 which is the new
state-of-the-art (SoTA) of GANs under fully-supervised setting. Our diffusion
model obtains FID of 8.42 and 4.28 on zero-shot and supervised setting
respectively, which are competitive to SoTA diffusion models with a much
smaller model size.
- Abstract(参考訳): テキスト・画像生成モデルは近年大きく進歩しており、任意のテキストから印象的なリアルな画像を生成することができる。
このようなモデルのほとんどは、Webスケールの画像テキストペア化データセットに基づいてトレーニングされている。
本稿では,画像のみのデータセット上でテキスト対画像生成モデルを事前学習する新しい手法を提案する。
擬似テキストの特徴を合成するための検索最適化手順を検討する: 与えられた画像に対して、関連する擬似テキスト特徴を最初に検索し、その後、アライメントを改善するために最適化する。
提案手法の低要求条件は高い柔軟性とユーザビリティを実現し, 少数のショット, 半教師付き, 完全教師付き学習を含む幅広い設定に有効であり, 生成的敵ネットワーク(GAN)や拡散モデルなど, 様々なモデルに適用可能である。
実験の結果,提案手法の有効性が示された。
MS-COCOデータセットでは、GANのフル教師付き環境下での新しい最先端(SoTA)である6.78のFr'echet Inception Distance(FID)が得られる。
拡散モデルはゼロショットと教師付き設定でそれぞれ8.42 と 4.28 の fid を得るが、これはモデルサイズがはるかに小さい sota 拡散モデルと競合する。
関連論文リスト
- MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文 参考訳(メタデータ) (2022-11-24T03:25:04Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。