論文の概要: Text to Image Generation and Editing: A Survey
- arxiv url: http://arxiv.org/abs/2505.02527v1
- Date: Mon, 05 May 2025 10:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.644613
- Title: Text to Image Generation and Editing: A Survey
- Title(参考訳): テキストから画像生成と編集:サーベイ
- Authors: Pengfei Yang, Ngai-Man Cheung, Xinda Ma,
- Abstract要約: テキスト・ツー・イメージ・ジェネレーション(Text-to-image Generation, T2I)は、高品質な画像のテキスト誘導生成である。
本調査では,2021年から2024年にかけて実施された141作品について概観した。
- 参考スコア(独自算出の注目度): 25.26255339213024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation (T2I) refers to the text-guided generation of high-quality images. In the past few years, T2I has attracted widespread attention and numerous works have emerged. In this survey, we comprehensively review 141 works conducted from 2021 to 2024. First, we introduce four foundation model architectures of T2I (autoregression, non-autoregression, GAN and diffusion) and the commonly used key technologies (autoencoder, attention and classifier-free guidance). Secondly, we systematically compare the methods of these studies in two directions, T2I generation and T2I editing, including the encoders and the key technologies they use. In addition, we also compare the performance of these researches side by side in terms of datasets, evaluation metrics, training resources, and inference speed. In addition to the four foundation models, we survey other works on T2I, such as energy-based models and recent Mamba and multimodality. We also investigate the potential social impact of T2I and provide some solutions. Finally, we propose unique insights of improving the performance of T2I models and possible future development directions. In summary, this survey is the first systematic and comprehensive overview of T2I, aiming to provide a valuable guide for future researchers and stimulate continued progress in this field.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーション(Text-to-image Generation, T2I)は、高品質な画像のテキスト誘導生成である。
過去数年間、T2Iは広く注目され、多くの作品が登場した。
本調査では,2021年から2024年にかけて実施された141作品について概観した。
まず、T2I (autoregression, non-autoregression, GAN and diffusion) の4つの基礎モデルアーキテクチャと、一般的に使われているキー技術(autoencoder, attention and classifier-free guidance)を紹介する。
第2に,これらの研究の手法を,エンコーダやキー技術を含むT2I生成とT2I編集という2つの方向に体系的に比較する。
さらに、データセット、評価指標、トレーニングリソース、推論速度の観点から、これらの研究のパフォーマンスを並べて比較する。
これら4つの基礎モデルに加えて,エネルギーベースモデルや最近のマンバ,マルチモーダリティなど,T2Iに関する他の研究についても調査する。
また、T2Iの潜在的な社会的影響を調査し、いくつかの解決策を提供する。
最後に,T2Iモデルの性能向上と今後の開発方向性について一意に考察する。
まとめると、この調査はT2Iの体系的かつ総合的な概要であり、将来の研究者に貴重なガイドを提供し、この分野の継続的な進歩を刺激することを目的としている。
関連論文リスト
- FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing [32.01426831450348]
本稿では,T2I生成における社会的バイアスの検出と緩和に,大規模言語モデルを活用する新しいフレームワークであるFairT2Iを紹介する。
以上の結果から,FairT2Iは社会的偏見を緩和し,画像の感度特性の多様性を高めることができた。
論文 参考訳(メタデータ) (2025-02-06T07:22:57Z) - Learning Visual Generative Priors without Text [45.38392857514346]
I2I(Image-to-image)の生成について検討した。
我々のI2Iモデルは、より基礎的な視覚的先行として機能し、既存のT2Iモデルよりも同等または優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-10T18:59:31Z) - Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。
本調査では,T2Iに関する最近の研究440件について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:40:32Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A
Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。
このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。
我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文 参考訳(メタデータ) (2023-12-04T20:47:48Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。