論文の概要: ImagenHub: Standardizing the evaluation of conditional image generation
models
- arxiv url: http://arxiv.org/abs/2310.01596v1
- Date: Mon, 2 Oct 2023 19:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 19:08:46.744704
- Title: ImagenHub: Standardizing the evaluation of conditional image generation
models
- Title(参考訳): ImagenHub:条件付き画像生成モデルの標準化
- Authors: Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang,
Wenhu Chen
- Abstract要約: 本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
- 参考スコア(独自算出の注目度): 48.51117156168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a myriad of conditional image generation and editing models have
been developed to serve different downstream tasks, including text-to-image
generation, text-guided image editing, subject-driven image generation,
control-guided image generation, etc. However, we observe huge inconsistencies
in experimental conditions: datasets, inference, and evaluation metrics -
render fair comparisons difficult. This paper proposes ImagenHub, which is a
one-stop library to standardize the inference and evaluation of all the
conditional image generation models. Firstly, we define seven prominent tasks
and curate high-quality evaluation datasets for them. Secondly, we built a
unified inference pipeline to ensure fair comparison. Thirdly, we design two
human evaluation scores, i.e. Semantic Consistency and Perceptual Quality,
along with comprehensive guidelines to evaluate generated images. We train
expert raters to evaluate the model outputs based on the proposed metrics. Our
human evaluation achieves a high inter-worker agreement of Krippendorff's alpha
on 76% models with a value higher than 0.4. We comprehensively evaluated a
total of around 30 models and observed three key takeaways: (1) the existing
models' performance is generally unsatisfying except for Text-guided Image
Generation and Subject-driven Image Generation, with 74% models achieving an
overall score lower than 0.5. (2) we examined the claims from published papers
and found 83% of them hold with a few exceptions. (3) None of the existing
automatic metrics has a Spearman's correlation higher than 0.2 except
subject-driven image generation. Moving forward, we will continue our efforts
to evaluate newly published models and update our leaderboard to keep track of
the progress in conditional image generation.
- Abstract(参考訳): 近年,テキスト対画像生成,テキストガイド画像編集,主題駆動画像生成,制御ガイド画像生成など,さまざまな下流タスクを行うための条件付き画像生成・編集モデルが数多く開発されている。
しかし,実験条件では,データセット,推論,評価指標の公正比較が困難である。
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
まず,7つのタスクを定義し,高品質な評価データセットをキュレートする。
次に、公正な比較を保証するために、統一的な推論パイプラインを構築しました。
第3に,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
提案した指標に基づいてモデル出力を評価するために,専門家のレーダを訓練する。
評価の結果,0.4以上の76%モデルにおいて,krippendorff's alphaの高い同僚間合意が得られた。
1) 既存のモデルの性能はテキスト誘導画像生成と主観駆動画像生成を除いて概ね不満足であり, 74% のモデルが 0.5 未満のスコアを達成している。
2) 論文のクレームを検証したところ, 83%が例外を除いて保持していることがわかった。
(3)既存の自動測度のうち,主観駆動画像生成以外のスピアマン相関は0.2以上である。
今後は、新たに公開されたモデルの評価と、条件付き画像生成の進捗状況を追跡するためのリーダーボードの更新を進めていく。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis [21.619269792415903]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念的カバレッジと公平性を通じてテキスト条件を検証した。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - GenEval: An Object-Focused Framework for Evaluating Text-to-Image
Alignment [26.785655363790312]
我々は、合成画像特性を評価するためのオブジェクト中心のフレームワークGenEvalを紹介する。
そこで本研究では,現在のオブジェクト検出モデルを用いてテキスト・ツー・イメージ・モデルの評価を行う。
次に、複数のオープンソーステキスト・ツー・イメージモデルを評価し、それらの相対的生成能力を解析する。
論文 参考訳(メタデータ) (2023-10-17T18:20:03Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。