Fugu-MT 論文翻訳(概要): Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis

論文の概要: Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis

arxiv url: http://arxiv.org/abs/2403.05125v1
Date: Fri, 8 Mar 2024 07:41:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 20:38:50.612305
Title: Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis
Title（参考訳）: テキスト・画像生成モデルの評価:人間の画像合成に関する実証的研究
Authors: Muxi Chen, Yi Liu, Jian Yi, Changran Xu, Qiuxia Lai, Hongliang Wang, Tsung-Yi Ho, Qiang Xu
Abstract要約: 本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。
参考スコア（独自算出の注目度）: 22.550416199280953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present an empirical study introducing a nuanced evaluation framework for text-to-image (T2I) generative models, applied to human image synthesis. Our framework categorizes evaluations into two distinct groups: first, focusing on image qualities such as aesthetics and realism, and second, examining text conditions through concept coverage and fairness. We introduce an innovative aesthetic score prediction model that assesses the visual appeal of generated images and unveils the first dataset marked with low-quality regions in generated human images to facilitate automatic defect detection. Our exploration into concept coverage probes the model's effectiveness in interpreting and rendering text-based concepts accurately, while our analysis of fairness reveals biases in model outputs, with an emphasis on gender, race, and age. While our study is grounded in human imagery, this dual-faceted approach is designed with the flexibility to be applicable to other forms of image generation, enhancing our understanding of generative models and paving the way to the next generation of more sophisticated, contextually aware, and ethically attuned generative models. We will release our code, the data used for evaluating generative models and the dataset annotated with defective areas soon.
Abstract（参考訳）: 本稿では,人間の画像合成に適用したテキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。本稿では,生成画像の視覚的魅力を評価するための革新的な美的スコア予測モデルを提案し,生成画像の低品質領域を特徴とする最初のデータセットを提示し,自動欠陥検出を容易にする。概念カバレッジに関する調査は,テキストに基づく概念の正確な解釈と表現におけるモデルの有効性を調査し,公平性の分析は,性別,人種,年齢を重視したモデル出力のバイアスを明らかにする。我々の研究は人間のイメージに根ざしているが、この二重面的アプローチは、他の画像生成にも適用可能な柔軟性を備え、生成モデルの理解を高め、より洗練され、文脈的に認識され、倫理的に直感的な生成モデルへの道を開く。コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。

関連論文リスト

Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment [63.823383517957986]
テキスト画像アライメントの目的を達成し,達成する新しい評価スコアであるICT(Image-Contained-Text)を提案する。さらに、画像モダリティのみを用いてHPスコアモデル(High-Preference)をトレーニングし、画像美学とディテール品質を向上させる。
論文参考訳（メタデータ） (2025-07-25T07:01:50Z)
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。 OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-06-09T17:50:21Z)
DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文参考訳（メタデータ） (2025-02-05T16:35:42Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは彼らの公正さ、信頼性、そして誤用の可能性について批判的な議論を呼んだ組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-14T13:52:43Z)
Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文参考訳（メタデータ） (2024-11-08T17:07:01Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文参考訳（メタデータ） (2024-07-17T05:21:41Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文参考訳（メタデータ） (2022-10-14T06:54:24Z)
Membership Inference Attacks Against Text-to-image Generation Models [23.39695974954703]
本稿では,メンバシップ推論のレンズを用いたテキスト・画像生成モデルの最初のプライバシ解析を行う。本稿では,メンバーシップ情報に関する3つの重要な直観と,それに応じて4つの攻撃手法を設計する。提案した攻撃はいずれも大きな性能を達成でき、場合によっては精度が1に近い場合もあり、既存のメンバーシップ推論攻撃よりもはるかに深刻なリスクとなる。
論文参考訳（メタデータ） (2022-10-03T14:31:39Z)
Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文参考訳（メタデータ） (2021-01-25T09:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。