Fugu-MT 論文翻訳(概要): ImagenHub: Standardizing the evaluation of conditional image generation models

論文の概要: ImagenHub: Standardizing the evaluation of conditional image generation models

arxiv url: http://arxiv.org/abs/2310.01596v4
Date: Sun, 10 Mar 2024 21:41:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 16:11:25.874058
Title: ImagenHub: Standardizing the evaluation of conditional image generation models
Title（参考訳）: ImagenHub:条件付き画像生成モデルの標準化
Authors: Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen
Abstract要約: 本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
参考スコア（独自算出の注目度）: 48.51117156168
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, a myriad of conditional image generation and editing models have been developed to serve different downstream tasks, including text-to-image generation, text-guided image editing, subject-driven image generation, control-guided image generation, etc. However, we observe huge inconsistencies in experimental conditions: datasets, inference, and evaluation metrics - render fair comparisons difficult. This paper proposes ImagenHub, which is a one-stop library to standardize the inference and evaluation of all the conditional image generation models. Firstly, we define seven prominent tasks and curate high-quality evaluation datasets for them. Secondly, we built a unified inference pipeline to ensure fair comparison. Thirdly, we design two human evaluation scores, i.e. Semantic Consistency and Perceptual Quality, along with comprehensive guidelines to evaluate generated images. We train expert raters to evaluate the model outputs based on the proposed metrics. Our human evaluation achieves a high inter-worker agreement of Krippendorff's alpha on 76% models with a value higher than 0.4. We comprehensively evaluated a total of around 30 models and observed three key takeaways: (1) the existing models' performance is generally unsatisfying except for Text-guided Image Generation and Subject-driven Image Generation, with 74% models achieving an overall score lower than 0.5. (2) we examined the claims from published papers and found 83% of them hold with a few exceptions. (3) None of the existing automatic metrics has a Spearman's correlation higher than 0.2 except subject-driven image generation. Moving forward, we will continue our efforts to evaluate newly published models and update our leaderboard to keep track of the progress in conditional image generation.
Abstract（参考訳）: 近年,テキスト対画像生成,テキストガイド画像編集,主題駆動画像生成,制御ガイド画像生成など,さまざまな下流タスクを行うための条件付き画像生成・編集モデルが数多く開発されている。しかし,実験条件では,データセット,推論,評価指標の公正比較が困難である。本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。まず,7つのタスクを定義し,高品質な評価データセットをキュレートする。次に、公正な比較を保証するために、統一的な推論パイプラインを構築しました。第3に,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。提案した指標に基づいてモデル出力を評価するために,専門家のレーダを訓練する。評価の結果,0.4以上の76%モデルにおいて,krippendorff's alphaの高い同僚間合意が得られた。 1) 既存のモデルの性能はテキスト誘導画像生成と主観駆動画像生成を除いて概ね不満足であり, 74% のモデルが 0.5 未満のスコアを達成している。 2) 論文のクレームを検証したところ, 83%が例外を除いて保持していることがわかった。 (3)既存の自動測度のうち,主観駆動画像生成以外のスピアマン相関は0.2以上である。今後は、新たに公開されたモデルの評価と、条件付き画像生成の進捗状況を追跡するためのリーダーボードの更新を進めていく。

関連論文リスト

GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks? [29.804627410258732]
我々は、ペアワイズ比較パラダイムを活用する統一評価フレームワークを導入し、安定的かつ人道的な評価を確実にする。提案手法は,評価精度を20%以上向上し,信頼性の高いLMArenaリーダボードとSpearmanの0.86の相関性を実現する。
論文参考訳（メタデータ） (2026-02-05T18:52:48Z)
UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文参考訳（メタデータ） (2025-11-03T07:24:57Z)
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。 OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-06-09T17:50:21Z)
Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文参考訳（メタデータ） (2024-11-08T17:07:01Z)
ImagiNet: A Multi-Content Benchmark for Synthetic Image Detection [0.0]
私たちは、写真、絵画、顔、雑多な4つのカテゴリにまたがる200万のサンプルのデータセットであるImagiNetを紹介します。 ImagiNetの合成画像はオープンソースとプロプライエタリの両方のジェネレータで作成され、各コンテントタイプの実際の画像はパブリックデータセットから収集される。
論文参考訳（メタデータ） (2024-07-29T13:57:24Z)
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。 VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文参考訳（メタデータ） (2024-06-19T18:00:07Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis [21.619269792415903]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。まず,美学やリアリズムといったイメージの質に着目し,第2に,概念的カバレッジと公平性を通じてテキスト条件を検証した。
論文参考訳（メタデータ） (2024-03-08T07:41:47Z)
GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment [26.785655363790312]
我々は、合成画像特性を評価するためのオブジェクト中心のフレームワークGenEvalを紹介する。そこで本研究では,現在のオブジェクト検出モデルを用いてテキスト・ツー・イメージ・モデルの評価を行う。次に、複数のオープンソーステキスト・ツー・イメージモデルを評価し、それらの相対的生成能力を解析する。
論文参考訳（メタデータ） (2023-10-17T18:20:03Z)
Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文参考訳（メタデータ） (2023-08-16T17:26:47Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。