論文の概要: DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models
- arxiv url: http://arxiv.org/abs/2202.04053v3
- Date: Wed, 30 Aug 2023 18:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 21:27:43.238464
- Title: DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models
- Title(参考訳): DALL-Eval:テキスト・画像生成モデルの推論スキルと社会的バイアスの探索
- Authors: Jaemin Cho, Abhay Zala, Mohit Bansal
- Abstract要約: テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
- 参考スコア(独自算出の注目度): 73.12069620086311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, DALL-E, a multimodal transformer language model, and its variants,
including diffusion models, have shown high-quality text-to-image generation
capabilities. However, despite the realistic image generation results, there
has not been a detailed analysis of how to evaluate such models. In this work,
we investigate the visual reasoning capabilities and social biases of different
text-to-image models, covering both multimodal transformer language models and
diffusion models. First, we measure three visual reasoning skills: object
recognition, object counting, and spatial relation understanding. For this, we
propose PaintSkills, a compositional diagnostic evaluation dataset that
measures these skills. Despite the high-fidelity image generation capability, a
large gap exists between the performance of recent models and the upper bound
accuracy in object counting and spatial relation understanding skills. Second,
we assess the gender and skin tone biases by measuring the gender/skin tone
distribution of generated images across various professions and attributes. We
demonstrate that recent text-to-image generation models learn specific biases
about gender and skin tone from web image-text pairs. We hope our work will
help guide future progress in improving text-to-image generation models on
visual reasoning skills and learning socially unbiased representations. Code
and data: https://github.com/j-min/DallEval
- Abstract(参考訳): 近年、マルチモーダルトランスフォーマー言語モデルであるdall-eとその拡散モデルを含む変種は高品質なテキスト対画像生成能力を示している。
しかし、現実的な画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。
本研究では,様々なテキスト対画像モデルの視覚的推論能力と社会的バイアスを調査し,マルチモーダルトランスフォーマー言語モデルと拡散モデルの両方をカバーする。
まず,物体認識,物体カウント,空間的関係理解の3つの視覚的推論スキルを測定する。
そこで本研究では,これらのスキルを測定する構成診断評価データセットであるpaintskillsを提案する。
忠実度の高い画像生成能力にもかかわらず、最近のモデルの性能とオブジェクトカウントと空間関係理解スキルの上限精度の間には大きなギャップが存在する。
次に,様々な職業や属性における生成画像の性別・肌色分布を計測し,性別・肌色バイアスを評価する。
近年のテキスト対画像生成モデルは、web画像とテキストのペアから性別や肌のトーンに関する特定のバイアスを学習できることを実証する。
われわれの研究は、視覚的推論スキルのテキスト・ツー・イメージ生成モデルの改善と、社会的に偏見のない表現の学習の今後の進歩を導いてくれることを期待している。
コードとデータ:https://github.com/j-min/DallEval
関連論文リスト
- Evaluating Text-to-Image Generative Models: An Empirical Study on Human
Image Synthesis [22.550416199280953]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。
コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - Examining Gender and Racial Bias in Large Vision-Language Models Using a
Novel Dataset of Parallel Images [10.385717398477414]
EveRyday Scenariosのための新しいデータセットPAIRS(Parallel Images for eveRyday Scenarios)を提案する。
PAIRSデータセットには、人物のAI生成画像のセットが含まれており、背景や視覚的内容の点で画像は極めて類似しているが、性別や人種の寸法によって異なる。
このような画像を用いてLVLMを問合せすることにより,人物の知覚的性別や人種による応答の有意な差を観察する。
論文 参考訳(メタデータ) (2024-02-08T16:11:23Z) - New Job, New Gender? Measuring the Social Bias in Image Generation
Models [88.93677200602887]
画像生成モデルは、与えられたテキストから画像を生成し、編集することができる。
DALL-EとMidjourneyによる画像生成技術の最近の進歩は画期的なものである。
これらの高度なモデルは、しばしば巨大なインターネットデータセットでトレーニングされており、社会的ステレオタイプとバイアスを永続するコンテンツを生成することに感受性がある。
画像生成モデルにおける社会的バイアスを的確に、かつ、包括的に引き起こすことのできる新しいテストフレームワークであるBiasPainterを提案する。
論文 参考訳(メタデータ) (2024-01-01T14:06:55Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。