論文の概要: DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generative Transformers
- arxiv url: http://arxiv.org/abs/2202.04053v1
- Date: Tue, 8 Feb 2022 18:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 13:52:16.101668
- Title: DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generative Transformers
- Title(参考訳): DALL-Eval:テキスト・ツー・イメージ生成変換器の推論スキルと社会的バイアスの探索
- Authors: Jaemin Cho, Abhay Zala, Mohit Bansal
- Abstract要約: マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。
対象の認識,対象のカウント,色認識,空間的関係理解の4つの視覚的推論スキルを測定した。
近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
- 参考スコア(独自算出の注目度): 83.0924442074443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating images from textual descriptions has gained a lot of attention.
Recently, DALL-E, a multimodal transformer language model, and its variants
have shown high-quality text-to-image generation capabilities with a simple
architecture and training objective, powered by large-scale training data and
computation. However, despite the interesting image generation results, there
has not been a detailed analysis on how to evaluate such models. In this work,
we investigate the reasoning capabilities and social biases of such
text-to-image generative transformers in detail. First, we measure four visual
reasoning skills: object recognition, object counting, color recognition, and
spatial relation understanding. For this, we propose PaintSkills, a diagnostic
dataset and evaluation toolkit that measures these four visual reasoning
skills. Second, we measure the text alignment and quality of the generated
images based on pretrained image captioning, image-text retrieval, and image
classification models. Third, we assess social biases in the models. For this,
we suggest evaluation of gender and racial biases of text-to-image generation
models based on a pretrained image-text retrieval model and human evaluation.
In our experiments, we show that recent text-to-image models perform better in
recognizing and counting objects than recognizing colors and understanding
spatial relations, while there exists a large gap between model performances
and oracle accuracy on all skills. Next, we demonstrate that recent
text-to-image models learn specific gender/racial biases from web image-text
pairs. We also show that our automatic evaluations of visual reasoning skills
and gender bias are highly correlated with human judgments. We hope our work
will help guide future progress in improving text-to-image models on visual
reasoning skills and social biases. Code and data at:
https://github.com/j-min/DallEval
- Abstract(参考訳): テキスト記述から画像を生成することは、多くの注目を集めている。
近年,マルチモーダルトランスフォーマー言語モデルであるDALL-Eとその変種は,大規模学習データと計算を応用した,シンプルなアーキテクチャと学習目標を備えた高品質なテキスト・画像生成能力を示している。
しかし、興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。
本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。
まず,物体認識,物体カウント,色認識,空間関係理解という4つの視覚的推論スキルを測定した。
そこで本研究では,これらの4つの視覚的推論能力を測定する診断データセットと評価ツールキットであるPaintSkillsを提案する。
次に,事前学習された画像キャプション,画像テキスト検索,画像分類モデルに基づいて,生成された画像のテキストアライメントと品質を測定する。
第3に,モデル内の社会的バイアスを評価する。
そこで本研究では,事前学習された画像検索モデルと人格評価に基づくテキスト対画像生成モデルの性別および人種バイアスの評価を提案する。
実験の結果,最近のテキスト・画像モデルでは,色認識や空間的関係の理解よりも物体の認識・数え方が優れており,全てのスキルにおいてモデル性能とオラクル精度の間には大きなギャップがあることがわかった。
次に、近年のテキスト対画像モデルが、web画像とテキストのペアから特定の性別/人種バイアスを学ぶことを実証する。
また,視覚推論スキルとジェンダーバイアスの自動評価は,人間の判断と高い相関性を示す。
われわれの研究は、視覚的推論スキルと社会的偏見に関するテキスト・ツー・イメージ・モデルの改善の今後の進歩を導いてくれることを期待している。
コードとデータ: https://github.com/j-min/dalleval
関連論文リスト
- Gender Bias Evaluation in Text-to-image Generation: A Survey [25.702257177921048]
テキスト・ツー・イメージ・ジェネレーションにおけるジェンダーバイアス評価に関する最近の研究についてレビューする。
安定拡散やDALL-E 2といった最近の人気モデルの評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-08-21T06:01:23Z) - Examining Gender and Racial Bias in Large Vision-Language Models Using a
Novel Dataset of Parallel Images [10.385717398477414]
EveRyday Scenariosのための新しいデータセットPAIRS(Parallel Images for eveRyday Scenarios)を提案する。
PAIRSデータセットには、人物のAI生成画像のセットが含まれており、背景や視覚的内容の点で画像は極めて類似しているが、性別や人種の寸法によって異なる。
このような画像を用いてLVLMを問合せすることにより,人物の知覚的性別や人種による応答の有意な差を観察する。
論文 参考訳(メタデータ) (2024-02-08T16:11:23Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - New Job, New Gender? Measuring the Social Bias in Image Generation Models [85.26441602999014]
画像生成モデルは、社会的ステレオタイプとバイアスを永続するコンテンツを生成できる。
画像生成モデルにおける社会的バイアスを的確に、かつ、かつ、包括的に引き起こすことのできるフレームワークであるBiasPainterを提案する。
BiasPainterは、自動バイアス検出において90.8%の精度を達成することができる。
論文 参考訳(メタデータ) (2024-01-01T14:06:55Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。