Fugu-MT 論文翻訳(概要): Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models

論文の概要: Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models

arxiv url: http://arxiv.org/abs/2407.00138v1
Date: Fri, 28 Jun 2024 14:10:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 06:10:29.148559
Title: Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models
Title（参考訳）: テキスト・画像生成モデルにおける品質・バイアス・性能の解析
Authors: Nila Masrourisaadat, Nazanin Sedaghatkish, Fatemeh Sarshartehrani, Edward A. Fox,
Abstract要約: 生成モデルの発展にもかかわらず、ほとんどの研究はバイアスの存在を無視している。本稿では,人間の顔,グループ,特定対象物の正確な画像を生成する上で,その性能を定性的に評価するだけでなく,社会的バイアス分析を行うことにより,複数のテキスト・画像モデルについて検討する。期待通り、より大きな能力を持つモデルは、高品質な画像を生成する。しかし、これらのモデルが持つ固有の性別や社会的バイアスも文書化しており、それらの影響と限界をより完全に理解している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in generative models have led to significant interest in image synthesis, demonstrating the ability to generate high-quality images for a diverse range of text prompts. Despite this progress, most studies ignore the presence of bias. In this paper, we examine several text-to-image models not only by qualitatively assessing their performance in generating accurate images of human faces, groups, and specified numbers of objects but also by presenting a social bias analysis. As expected, models with larger capacity generate higher-quality images. However, we also document the inherent gender or social biases these models possess, offering a more complete understanding of their impact and limitations.
Abstract（参考訳）: 生成モデルの進歩は画像合成に大きな関心を惹き付け、多様なテキストプロンプトに対して高品質な画像を生成する能力を示した。この進歩にもかかわらず、ほとんどの研究はバイアスの存在を無視している。本稿では,人間の顔,グループ,特定対象物の正確な画像を生成する上で,その性能を定性的に評価するだけでなく,社会的バイアス分析を行うことにより,複数のテキスト・画像モデルについて検討する。予想通り、キャパシティが大きいモデルは高品質な画像を生成する。しかし、これらのモデルが持つ本質的な性別や社会的偏見も文書化しており、その影響や限界をより完全に理解している。

関連論文リスト

KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
Gender Bias Evaluation in Text-to-image Generation: A Survey [25.702257177921048]
テキスト・ツー・イメージ・ジェネレーションにおけるジェンダーバイアス評価に関する最近の研究についてレビューする。安定拡散やDALL-E 2といった最近の人気モデルの評価に焦点をあてる。
論文参考訳（メタデータ） (2024-08-21T06:01:23Z)
Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-05-17T15:50:53Z)
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文参考訳（メタデータ） (2024-04-23T14:53:15Z)
TIBET: Identifying and Evaluating Biases in Text-to-Image Generative Models [22.076898042211305]
我々は、任意のTTIモデルと任意のプロンプトに対して、幅広いバイアススペクトルを研究、定量化するための一般的なアプローチを提案する。我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文参考訳（メタデータ） (2023-12-03T02:31:37Z)
Situating the social issues of image generation models in the model life cycle: a sociotechnical approach [20.99805435959377]
本稿では,画像生成モデルに関連する社会問題の包括的分類について報告する。データ問題,知的財産権,バイアス,プライバシ,情報,文化,自然環境など,画像生成モデルから生じる7つのイシュークラスタを特定します。画像生成モデルによって引き起こされるリスクは、大きな言語モデルによってもたらされるリスクと重大であると主張する。
論文参考訳（メタデータ） (2023-11-30T08:32:32Z)
Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (2023-11-07T19:00:56Z)
Limitations of Face Image Generation [12.11955119100926]
顔生成における生成モデルの有効性と欠点について検討した。テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
論文参考訳（メタデータ） (2023-09-13T19:33:26Z)
Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。このような違いを推定する自動手法を提案する。
論文参考訳（メタデータ） (2023-02-07T18:52:22Z)
Language Does More Than Describe: On The Lack Of Figurative Speech in Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文参考訳（メタデータ） (2022-10-19T14:20:05Z)
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文参考訳（メタデータ） (2022-02-08T18:36:52Z)
Unravelling the Effect of Image Distortions for Biased Prediction of Pre-trained Face Recognition Models [86.79402670904338]
画像歪みの存在下での4つの最先端深層顔認識モデルの性能評価を行った。我々は、画像歪みが、異なるサブグループ間でのモデルの性能ギャップと関係していることを観察した。
論文参考訳（メタデータ） (2021-08-14T16:49:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。