論文の概要: Evaluating Text-to-Image Generative Models: An Empirical Study on Human
Image Synthesis
- arxiv url: http://arxiv.org/abs/2403.05125v1
- Date: Fri, 8 Mar 2024 07:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:38:50.612305
- Title: Evaluating Text-to-Image Generative Models: An Empirical Study on Human
Image Synthesis
- Title(参考訳): テキスト・画像生成モデルの評価:人間の画像合成に関する実証的研究
- Authors: Muxi Chen, Yi Liu, Jian Yi, Changran Xu, Qiuxia Lai, Hongliang Wang,
Tsung-Yi Ho, Qiang Xu
- Abstract要約: 本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。
コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。
- 参考スコア(独自算出の注目度): 22.550416199280953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an empirical study introducing a nuanced evaluation
framework for text-to-image (T2I) generative models, applied to human image
synthesis. Our framework categorizes evaluations into two distinct groups:
first, focusing on image qualities such as aesthetics and realism, and second,
examining text conditions through concept coverage and fairness. We introduce
an innovative aesthetic score prediction model that assesses the visual appeal
of generated images and unveils the first dataset marked with low-quality
regions in generated human images to facilitate automatic defect detection. Our
exploration into concept coverage probes the model's effectiveness in
interpreting and rendering text-based concepts accurately, while our analysis
of fairness reveals biases in model outputs, with an emphasis on gender, race,
and age. While our study is grounded in human imagery, this dual-faceted
approach is designed with the flexibility to be applicable to other forms of
image generation, enhancing our understanding of generative models and paving
the way to the next generation of more sophisticated, contextually aware, and
ethically attuned generative models. We will release our code, the data used
for evaluating generative models and the dataset annotated with defective areas
soon.
- Abstract(参考訳): 本稿では,人間の画像合成に適用したテキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。
本稿では,生成画像の視覚的魅力を評価するための革新的な美的スコア予測モデルを提案し,生成画像の低品質領域を特徴とする最初のデータセットを提示し,自動欠陥検出を容易にする。
概念カバレッジに関する調査は,テキストに基づく概念の正確な解釈と表現におけるモデルの有効性を調査し,公平性の分析は,性別,人種,年齢を重視したモデル出力のバイアスを明らかにする。
我々の研究は人間のイメージに根ざしているが、この二重面的アプローチは、他の画像生成にも適用可能な柔軟性を備え、生成モデルの理解を高め、より洗練され、文脈的に認識され、倫理的に直感的な生成モデルへの道を開く。
コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Membership Inference Attacks Against Text-to-image Generation Models [23.39695974954703]
本稿では,メンバシップ推論のレンズを用いたテキスト・画像生成モデルの最初のプライバシ解析を行う。
本稿では,メンバーシップ情報に関する3つの重要な直観と,それに応じて4つの攻撃手法を設計する。
提案した攻撃はいずれも大きな性能を達成でき、場合によっては精度が1に近い場合もあり、既存のメンバーシップ推論攻撃よりもはるかに深刻なリスクとなる。
論文 参考訳(メタデータ) (2022-10-03T14:31:39Z) - Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。
我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。
本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文 参考訳(メタデータ) (2021-01-25T09:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。