論文の概要: DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models
- arxiv url: http://arxiv.org/abs/2202.04053v3
- Date: Wed, 30 Aug 2023 18:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 21:27:43.238464
- Title: DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models
- Title(参考訳): DALL-Eval:テキスト・画像生成モデルの推論スキルと社会的バイアスの探索
- Authors: Jaemin Cho, Abhay Zala, Mohit Bansal
- Abstract要約: テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
- 参考スコア(独自算出の注目度): 73.12069620086311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, DALL-E, a multimodal transformer language model, and its variants,
including diffusion models, have shown high-quality text-to-image generation
capabilities. However, despite the realistic image generation results, there
has not been a detailed analysis of how to evaluate such models. In this work,
we investigate the visual reasoning capabilities and social biases of different
text-to-image models, covering both multimodal transformer language models and
diffusion models. First, we measure three visual reasoning skills: object
recognition, object counting, and spatial relation understanding. For this, we
propose PaintSkills, a compositional diagnostic evaluation dataset that
measures these skills. Despite the high-fidelity image generation capability, a
large gap exists between the performance of recent models and the upper bound
accuracy in object counting and spatial relation understanding skills. Second,
we assess the gender and skin tone biases by measuring the gender/skin tone
distribution of generated images across various professions and attributes. We
demonstrate that recent text-to-image generation models learn specific biases
about gender and skin tone from web image-text pairs. We hope our work will
help guide future progress in improving text-to-image generation models on
visual reasoning skills and learning socially unbiased representations. Code
and data: https://github.com/j-min/DallEval
- Abstract(参考訳): 近年、マルチモーダルトランスフォーマー言語モデルであるdall-eとその拡散モデルを含む変種は高品質なテキスト対画像生成能力を示している。
しかし、現実的な画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。
本研究では,様々なテキスト対画像モデルの視覚的推論能力と社会的バイアスを調査し,マルチモーダルトランスフォーマー言語モデルと拡散モデルの両方をカバーする。
まず,物体認識,物体カウント,空間的関係理解の3つの視覚的推論スキルを測定する。
そこで本研究では,これらのスキルを測定する構成診断評価データセットであるpaintskillsを提案する。
忠実度の高い画像生成能力にもかかわらず、最近のモデルの性能とオブジェクトカウントと空間関係理解スキルの上限精度の間には大きなギャップが存在する。
次に,様々な職業や属性における生成画像の性別・肌色分布を計測し,性別・肌色バイアスを評価する。
近年のテキスト対画像生成モデルは、web画像とテキストのペアから性別や肌のトーンに関する特定のバイアスを学習できることを実証する。
われわれの研究は、視覚的推論スキルのテキスト・ツー・イメージ生成モデルの改善と、社会的に偏見のない表現の学習の今後の進歩を導いてくれることを期待している。
コードとデータ:https://github.com/j-min/DallEval
関連論文リスト
- Gender Bias Evaluation in Text-to-image Generation: A Survey [25.702257177921048]
テキスト・ツー・イメージ・ジェネレーションにおけるジェンダーバイアス評価に関する最近の研究についてレビューする。
安定拡散やDALL-E 2といった最近の人気モデルの評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-08-21T06:01:23Z) - Examining Gender and Racial Bias in Large Vision-Language Models Using a
Novel Dataset of Parallel Images [10.385717398477414]
EveRyday Scenariosのための新しいデータセットPAIRS(Parallel Images for eveRyday Scenarios)を提案する。
PAIRSデータセットには、人物のAI生成画像のセットが含まれており、背景や視覚的内容の点で画像は極めて類似しているが、性別や人種の寸法によって異なる。
このような画像を用いてLVLMを問合せすることにより,人物の知覚的性別や人種による応答の有意な差を観察する。
論文 参考訳(メタデータ) (2024-02-08T16:11:23Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - New Job, New Gender? Measuring the Social Bias in Image Generation Models [85.26441602999014]
画像生成モデルは、社会的ステレオタイプとバイアスを永続するコンテンツを生成できる。
画像生成モデルにおける社会的バイアスを的確に、かつ、かつ、包括的に引き起こすことのできるフレームワークであるBiasPainterを提案する。
BiasPainterは、自動バイアス検出において90.8%の精度を達成することができる。
論文 参考訳(メタデータ) (2024-01-01T14:06:55Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。