論文の概要: The Challenges of Image Generation Models in Generating Multi-Component
Images
- arxiv url: http://arxiv.org/abs/2311.13620v1
- Date: Wed, 22 Nov 2023 07:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 01:48:49.097372
- Title: The Challenges of Image Generation Models in Generating Multi-Component
Images
- Title(参考訳): 多成分画像生成における画像生成モデルの課題
- Authors: Tham Yik Foong, Shashank Kotyan, Po Yuan Mao, Danilo Vasconcellos
Vargas
- Abstract要約: プロンプトの複雑さは、生成された画像の品質のボトルネックとなる。
その結果、評価されたモデルでは、プロンプトから全ての視覚要素を複数のコンポーネントに組み込むのに苦労していることが判明した。
この問題を修正するために、私たちは、複数のコンポーネントでカスタム生成されたテストデータセットにスタブルディフュージョンV2を微調整し、そのバニラよりも優れています。
- 参考スコア(独自算出の注目度): 7.742297876120561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image generators have led to substantial
capabilities in image generation. However, the complexity of prompts acts as a
bottleneck in the quality of images generated. A particular under-explored
facet is the ability of generative models to create high-quality images
comprising multiple components given as a prior. In this paper, we propose and
validate a metric called Components Inclusion Score (CIS) to evaluate the
extent to which a model can correctly generate multiple components. Our results
reveal that the evaluated models struggle to incorporate all the visual
elements from prompts with multiple components (8.53% drop in CIS per component
for all evaluated models). We also identify a significant decline in the
quality of the images and context awareness within an image as the number of
components increased (15.91% decrease in inception Score and 9.62% increase in
Frechet Inception Distance). To remedy this issue, we fine-tuned Stable
Diffusion V2 on a custom-created test dataset with multiple components,
outperforming its vanilla counterpart. To conclude, these findings reveal a
critical limitation in existing text-to-image generators, shedding light on the
challenge of generating multiple components within a single image using a
complex prompt.
- Abstract(参考訳): テキストから画像へのジェネレータの最近の進歩は、画像生成に実質的な能力をもたらした。
しかし、プロンプトの複雑さは、生成された画像の品質のボトルネックとなる。
特定の未熟なファセットは、生成モデルが事前に与えられた複数のコンポーネントからなる高品質なイメージを作成する能力である。
本稿では、モデルが複数のコンポーネントを正しく生成できる範囲を評価するために、コンポーネント包摂スコア(CIS)と呼ばれるメトリクスを提案し、検証する。
その結果、評価されたモデルでは、複数のコンポーネントでプロンプトから全ての視覚要素を組み込むのに苦労していることがわかった。
また,成分数の増加に伴い,画像の質や文脈認識が著しく低下することが明らかとなった(入力スコアが15.91%減少し,フレシェ開始距離が9.62%増加した)。
この問題に対処するため、我々は、複数のコンポーネントを持つカスタム作成テストデータセット上で安定した拡散v2を微調整した。
結論として,既存のテキスト対画像生成装置では,複雑なプロンプトを用いて,単一の画像内で複数のコンポーネントを生成するという課題に光を当てている。
関連論文リスト
- Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - Anomaly Score: Evaluating Generative Models and Individual Generated Images based on Complexity and Vulnerability [21.355484227864466]
生成した画像の表現空間と入力空間の関係について検討する。
異常スコア(AS)と呼ばれる画像生成モデルを評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-17T07:33:06Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Collaging Class-specific GANs for Semantic Image Synthesis [68.87294033259417]
本稿では,高分解能なセマンティック画像合成のための新しい手法を提案する。
1つのベースイメージジェネレータと複数のクラス固有のジェネレータで構成される。
実験により,本手法は高解像度で高品質な画像を生成することができることが示された。
論文 参考訳(メタデータ) (2021-10-08T17:46:56Z) - Blind Image Decomposition [53.760745569495825]
本稿では,Blind Image Decomposition (BID)について述べる。
雨のような重畳された画像を異なるソースコンポーネントに分解する方法は、現実世界の視覚システムにとって重要なステップだ。
本稿では,Blind Image Decomposition Network (BIDeN) を提案する。
論文 参考訳(メタデータ) (2021-08-25T17:37:19Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Multi-Class Multi-Instance Count Conditioned Adversarial Image
Generation [9.560980936110234]
与えられたクラスから定義された数のオブジェクトを持つ画像を生成する条件付きジェネレーティブ・アドバーサリ・ネットワーク(GAN)を提案する。
これは(1)複雑な制約により高品質な画像を生成することができ、(2)与えられた画像内のクラスごとにオブジェクトインスタンスを数えることができるという2つの基本的な能力を伴う。
3つの異なるデータセットの実験において、複雑な背景が存在する場合でも、提案モデルが与えられた多重クラスカウント条件に従って画像を生成することを学習することを示す。
論文 参考訳(メタデータ) (2021-03-31T04:06:11Z) - Multi-Image Summarization: Textual Summary from a Set of Cohesive Images [17.688344968462275]
本稿では,マルチイメージ要約の新しい課題を提案する。
入力画像のコヒーレントな集合から簡潔で記述的なテキスト要約を生成することを目的としている。
密度の高い平均画像特徴集約ネットワークにより、モデルは属性のコヒーレントなサブセットに集中することができる。
論文 参考訳(メタデータ) (2020-06-15T18:45:35Z) - GIQA: Generated Image Quality Assessment [36.01759301994946]
現在、GAN(Generative Adversarial Network)は印象的な成果を上げているが、すべての生成した画像が完璧ではない。
本稿では,生成画像の品質を定量的に評価する生成画像品質評価(GIQA)を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:08Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。