論文の概要: Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2407.00138v1
- Date: Fri, 28 Jun 2024 14:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:10:29.148559
- Title: Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models
- Title(参考訳): テキスト・画像生成モデルにおける品質・バイアス・性能の解析
- Authors: Nila Masrourisaadat, Nazanin Sedaghatkish, Fatemeh Sarshartehrani, Edward A. Fox,
- Abstract要約: 生成モデルの発展にもかかわらず、ほとんどの研究はバイアスの存在を無視している。
本稿では,人間の顔,グループ,特定対象物の正確な画像を生成する上で,その性能を定性的に評価するだけでなく,社会的バイアス分析を行うことにより,複数のテキスト・画像モデルについて検討する。
期待通り、より大きな能力を持つモデルは、高品質な画像を生成する。しかし、これらのモデルが持つ固有の性別や社会的バイアスも文書化しており、それらの影響と限界をより完全に理解している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in generative models have led to significant interest in image synthesis, demonstrating the ability to generate high-quality images for a diverse range of text prompts. Despite this progress, most studies ignore the presence of bias. In this paper, we examine several text-to-image models not only by qualitatively assessing their performance in generating accurate images of human faces, groups, and specified numbers of objects but also by presenting a social bias analysis. As expected, models with larger capacity generate higher-quality images. However, we also document the inherent gender or social biases these models possess, offering a more complete understanding of their impact and limitations.
- Abstract(参考訳): 生成モデルの進歩は画像合成に大きな関心を惹き付け、多様なテキストプロンプトに対して高品質な画像を生成する能力を示した。
この進歩にもかかわらず、ほとんどの研究はバイアスの存在を無視している。
本稿では,人間の顔,グループ,特定対象物の正確な画像を生成する上で,その性能を定性的に評価するだけでなく,社会的バイアス分析を行うことにより,複数のテキスト・画像モデルについて検討する。
予想通り、キャパシティが大きいモデルは高品質な画像を生成する。
しかし、これらのモデルが持つ本質的な性別や社会的偏見も文書化しており、その影響や限界をより完全に理解している。
関連論文リスト
- Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Evaluating Text-to-Image Generative Models: An Empirical Study on Human
Image Synthesis [22.550416199280953]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。
コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - TIBET: Identifying and Evaluating Biases in Text-to-Image Generative Models [22.076898042211305]
我々は、任意のTTIモデルと任意のプロンプトに対して、幅広いバイアススペクトルを研究、定量化するための一般的なアプローチを提案する。
我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。
本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文 参考訳(メタデータ) (2023-12-03T02:31:37Z) - Situating the social issues of image generation models in the model life cycle: a sociotechnical approach [20.99805435959377]
本稿では,画像生成モデルに関連する社会問題の包括的分類について報告する。
データ問題,知的財産権,バイアス,プライバシ,情報,文化,自然環境など,画像生成モデルから生じる7つのイシュークラスタを特定します。
画像生成モデルによって引き起こされるリスクは、大きな言語モデルによってもたらされるリスクと重大であると主張する。
論文 参考訳(メタデータ) (2023-11-30T08:32:32Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Limitations of Face Image Generation [12.11955119100926]
顔生成における生成モデルの有効性と欠点について検討した。
テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。
本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T19:33:26Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Unravelling the Effect of Image Distortions for Biased Prediction of
Pre-trained Face Recognition Models [86.79402670904338]
画像歪みの存在下での4つの最先端深層顔認識モデルの性能評価を行った。
我々は、画像歪みが、異なるサブグループ間でのモデルの性能ギャップと関係していることを観察した。
論文 参考訳(メタデータ) (2021-08-14T16:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。