論文の概要: RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model
- arxiv url: http://arxiv.org/abs/2309.00810v1
- Date: Sat, 2 Sep 2023 03:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:08:16.105661
- Title: RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model
- Title(参考訳): RenAIssance:大規模モデル時代のAIテキスト・画像生成に関する調査
- Authors: Fengxiang Bie, Yibo Yang, Zhongzhu Zhou, Adam Ghanem, Minjia Zhang,
Zhewei Yao, Xiaoxia Wu, Connor Holmes, Pareesa Golnari, David A. Clifton,
Yuxiong He, Dacheng Tao, Shuaiwen Leon Song
- Abstract要約: テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
- 参考スコア(独自算出の注目度): 93.8067369210696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation (TTI) refers to the usage of models that could
process text input and generate high fidelity images based on text
descriptions. Text-to-image generation using neural networks could be traced
back to the emergence of Generative Adversial Network (GAN), followed by the
autoregressive Transformer. Diffusion models are one prominent type of
generative model used for the generation of images through the systematic
introduction of noises with repeating steps. As an effect of the impressive
results of diffusion models on image synthesis, it has been cemented as the
major image decoder used by text-to-image models and brought text-to-image
generation to the forefront of machine-learning (ML) research. In the era of
large models, scaling up model size and the integration with large language
models have further improved the performance of TTI models, resulting the
generation result nearly indistinguishable from real-world images,
revolutionizing the way we retrieval images. Our explorative study has
incentivised us to think that there are further ways of scaling text-to-image
models with the combination of innovative model architectures and prediction
enhancement techniques. We have divided the work of this survey into five main
sections wherein we detail the frameworks of major literature in order to delve
into the different types of text-to-image generation methods. Following this we
provide a detailed comparison and critique of these methods and offer possible
pathways of improvement for future work. In the future work, we argue that TTI
development could yield impressive productivity improvements for creation,
particularly in the context of the AIGC era, and could be extended to more
complex tasks such as video generation and 3D generation.
- Abstract(参考訳): text-to-image generation (tti)とは、テキスト入力を処理し、テキスト記述に基づいて忠実度の高い画像を生成するモデルの使用を指す。
ニューラルネットワークを用いたテキスト・ツー・イメージ生成は、GAN(Generative Adversial Network)の出現と、自動回帰変換器(autoregressive Transformer)に遡ることができる。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
拡散モデルの印象的な結果が画像合成に与える影響として、テキスト対画像モデルで使用される主要な画像デコーダとして定着し、機械学習(ml)研究の最前線にテキスト対画像生成をもたらした。
大規模モデルの時代において、モデルサイズを拡大し、大きな言語モデルとの統合により、TTIモデルの性能がさらに向上し、生成結果が実際の画像とほとんど区別できないようになり、画像の検索方法に革命をもたらした。
我々の探索的研究は、革新的なモデルアーキテクチャと予測拡張技術を組み合わせて、テキストから画像へのモデルをスケールする方法がさらにあると考えるきっかけとなった。
我々は,本調査の成果を,テキストから画像への異なる生成方法を検討するために,主要な文献の枠組みを詳述する5つの主要なセクションに分けた。
次に、これらの手法の詳細な比較と批判を行い、今後の研究に改善の道筋を提供する。
今後の研究で、TTI開発は、特にAIGC時代の状況において、創造の生産性を著しく向上させ、ビデオ生成や3D生成といったより複雑なタスクにまで拡張できると論じている。
関連論文リスト
- Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation [12.024554708901514]
テキスト・ツー・イメージ生成のための多種多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
私たちのパイプラインは、様々な言語モデルと生成視覚モデルと互換性があり、異なる構造を収容しています。
論文 参考訳(メタデータ) (2024-03-12T17:50:11Z) - Diffusion idea exploration for art generation [0.10152838128195467]
拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおいて、他の生成モデルよりも優れています。
このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。
論文 参考訳(メタデータ) (2023-07-11T02:35:26Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Textile Pattern Generation Using Diffusion Models [0.0]
本研究は,テクスト指導による織物パターン生成のための微調整拡散モデルを提案する。
提案した微調整拡散モデルは,テキストガイダンスによる織物パターン生成におけるパターン品質と効率の観点から,ベースラインモデルより優れる。
論文 参考訳(メタデータ) (2023-04-02T12:12:24Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - PAGER: Progressive Attribute-Guided Extendable Robust Image Generation [38.484332924924914]
本研究は,連続的部分空間学習(SSL)に基づく生成的モデリング手法を提案する。
文献のほとんどの生成モデルとは異なり,本手法では,基盤となるソース分布の解析や画像の合成にはニューラルネットワークを使用しない。
プログレッシブ誘導伸縮性画像生成(R)モデルと呼ばれるこの手法は、数学的透明性、プログレッシブコンテンツ生成、トレーニング時間の短縮、トレーニングサンプルの少ないロバストパフォーマンス、条件付き画像生成への拡張性に利点がある。
論文 参考訳(メタデータ) (2022-06-01T00:35:42Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。