論文の概要: How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions?
- arxiv url: http://arxiv.org/abs/2210.15230v1
- Date: Thu, 27 Oct 2022 07:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:16:38.986197
- Title: How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions?
- Title(参考訳): テキスト・画像生成モデルはいかに倫理的自然言語干渉を理解することができるか?
- Authors: Hritik Bansal, Da Yin, Masoud Monajatipoor, Kai-Wei Chang
- Abstract要約: 倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
- 参考スコア(独自算出の注目度): 67.97752431429865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models have achieved unprecedented success in
generating high-quality images based on natural language descriptions. However,
it is shown that these models tend to favor specific social groups when
prompted with neutral text descriptions (e.g., 'a photo of a lawyer').
Following Zhao et al. (2021), we study the effect on the diversity of the
generated images when adding ethical intervention that supports equitable
judgment (e.g., 'if all individuals can be a lawyer irrespective of their
gender') in the input prompts. To this end, we introduce an Ethical NaTural
Language Interventions in Text-to-Image GENeration (ENTIGEN) benchmark dataset
to evaluate the change in image generations conditional on ethical
interventions across three social axes -- gender, skin color, and culture.
Through ENTIGEN framework, we find that the generations from minDALL.E,
DALL.E-mini and Stable Diffusion cover diverse social groups while preserving
the image quality. Preliminary studies indicate that a large change in the
model predictions is triggered by certain phrases such as 'irrespective of
gender' in the context of gender bias in the ethical interventions. We release
code and annotated data at https://github.com/Hritikbansal/entigen_emnlp.
- Abstract(参考訳): テキストから画像への生成モデルは、自然言語記述に基づく高品質な画像の生成において、前例のない成功を収めた。
しかし、これらのモデルでは、中立的なテキスト記述(例えば「弁護士の写真」)によって特定の社会的グループを好む傾向がある。
Zhao et al. (2021) に続いて, インプットプロンプトにおいて, 公平な判断を支持する倫理的介入(例えば, 「すべての個人が, 性別によらず弁護士になれる」など)を加える際の, 生成画像の多様性への影響について検討した。
そこで本研究では,3つの社会軸(性別,肌の色,文化)にまたがる倫理的介入を条件とした画像世代変化を評価するために,テキスト・ツー・イメージ・ジェネレーション(ENTIGEN)ベンチマークデータセットを提案する。
ENIGENフレームワークを通じて,minDALL.E,DALL.E-mini,Stable Diffusionの各世代が,画像の品質を維持しながら多様な社会集団をカバーしていることがわかった。
予備研究は、モデル予測の大きな変化が、倫理的介入における性バイアスの文脈における「性別の無視」のような特定のフレーズによって引き起こされることを示している。
私たちはhttps://github.com/hritikbansal/entigen_emnlpでコードと注釈付きデータをリリースします。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and
Prompt Engineering May Not Help You [68.50889475919251]
多言語モデルは単言語モデルと同様の(性的な)バイアスに悩まされていることを示す。
ジェンダーバイアスのない多言語モデルの研究を促進するための新しいベンチマークMAGBIGを提案する。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - New Job, New Gender? Measuring the Social Bias in Image Generation
Models [88.93677200602887]
画像生成モデルは、与えられたテキストから画像を生成し、編集することができる。
DALL-EとMidjourneyによる画像生成技術の最近の進歩は画期的なものである。
これらの高度なモデルは、しばしば巨大なインターネットデータセットでトレーニングされており、社会的ステレオタイプとバイアスを永続するコンテンツを生成することに感受性がある。
画像生成モデルにおける社会的バイアスを的確に、かつ、包括的に引き起こすことのできる新しいテストフレームワークであるBiasPainterを提案する。
論文 参考訳(メタデータ) (2024-01-01T14:06:55Z) - Probing and Mitigating Intersectional Social Biases in Vision-Language
Models with Counterfactual Examples [6.084482865688909]
我々は、テキスト・ツー・イメージ拡散モデルを用いて、大規模に侵入する社会的バイアスを探索する対実例を作成する。
SocialCounterfactualsは、性別、人種、身体的特徴に関連する交叉バイアスを求めるために、171k以上の画像テキストペアを含む高品質なデータセットである。
論文 参考訳(メタデータ) (2023-11-30T18:32:14Z) - Mitigating stereotypical biases in text to image generative systems [10.068823600548157]
我々は、さまざまなテキストプロンプトから構築された知覚された皮膚のトーンや性別によって異なる合成データに対して、テキスト・ツー・イメージモデルを微調整することでこれを実現している。
我々の多様性微調整(DFT)モデルは、知覚された肌のトーンが150%、知覚された性別が97.7%向上する。
論文 参考訳(メタデータ) (2023-10-10T18:01:52Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Bias-to-Text: Debiasing Unknown Visual Biases through Language
Interpretation [72.02386627482056]
本稿では,視覚モデルにおけるバイアスを識別・緩和するB2Tフレームワークを提案する。
視覚バイアスの言語記述は、新しいバイアスの発見と効果的なモデルバイアスの発見を可能にする説明可能な形式を提供する。
様々な画像分類・生成タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。