Fugu-MT 論文翻訳(概要): How well can Text-to-Image Generative Models understand Ethical Natural Language Interventions?

論文の概要: How well can Text-to-Image Generative Models understand Ethical Natural Language Interventions?

arxiv url: http://arxiv.org/abs/2210.15230v1
Date: Thu, 27 Oct 2022 07:32:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 12:16:38.986197
Title: How well can Text-to-Image Generative Models understand Ethical Natural Language Interventions?
Title（参考訳）: テキスト・画像生成モデルはいかに倫理的自然言語干渉を理解することができるか?
Authors: Hritik Bansal, Da Yin, Masoud Monajatipoor, Kai-Wei Chang
Abstract要約: 倫理的介入を加える際の画像の多様性への影響について検討した。予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
参考スコア（独自算出の注目度）: 67.97752431429865
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image generative models have achieved unprecedented success in generating high-quality images based on natural language descriptions. However, it is shown that these models tend to favor specific social groups when prompted with neutral text descriptions (e.g., 'a photo of a lawyer'). Following Zhao et al. (2021), we study the effect on the diversity of the generated images when adding ethical intervention that supports equitable judgment (e.g., 'if all individuals can be a lawyer irrespective of their gender') in the input prompts. To this end, we introduce an Ethical NaTural Language Interventions in Text-to-Image GENeration (ENTIGEN) benchmark dataset to evaluate the change in image generations conditional on ethical interventions across three social axes -- gender, skin color, and culture. Through ENTIGEN framework, we find that the generations from minDALL.E, DALL.E-mini and Stable Diffusion cover diverse social groups while preserving the image quality. Preliminary studies indicate that a large change in the model predictions is triggered by certain phrases such as 'irrespective of gender' in the context of gender bias in the ethical interventions. We release code and annotated data at https://github.com/Hritikbansal/entigen_emnlp.
Abstract（参考訳）: テキストから画像への生成モデルは、自然言語記述に基づく高品質な画像の生成において、前例のない成功を収めた。しかし、これらのモデルでは、中立的なテキスト記述(例えば「弁護士の写真」)によって特定の社会的グループを好む傾向がある。 Zhao et al. (2021) に続いて, インプットプロンプトにおいて, 公平な判断を支持する倫理的介入(例えば, 「すべての個人が, 性別によらず弁護士になれる」など)を加える際の, 生成画像の多様性への影響について検討した。そこで本研究では,3つの社会軸(性別,肌の色,文化)にまたがる倫理的介入を条件とした画像世代変化を評価するために,テキスト・ツー・イメージ・ジェネレーション(ENTIGEN)ベンチマークデータセットを提案する。 ENIGENフレームワークを通じて,minDALL.E,DALL.E-mini,Stable Diffusionの各世代が,画像の品質を維持しながら多様な社会集団をカバーしていることがわかった。予備研究は、モデル予測の大きな変化が、倫理的介入における性バイアスの文脈における「性別の無視」のような特定のフレーズによって引き起こされることを示している。私たちはhttps://github.com/hritikbansal/entigen_emnlpでコードと注釈付きデータをリリースします。

関連論文リスト

Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-01-29T12:02:28Z)
SocialCounterfactuals: Probing and Mitigating Intersectional Social Biases in Vision-Language Models with Counterfactual Examples [6.084482865688909]
我々はテキスト・ツー・イメージ拡散モデルを用いて、大規模に交叉する社会的バイアスを探索する対実例を作成した。提案手法では,安定拡散とクロスアテンション制御を用いて,対実的画像とテキストのペアのセットを生成する。我々は、性別、人種、身体特性に関連する交叉バイアスを求めるために、171kの画像テキストペアを含む高品質なデータセットであるSocialCounterfactualsを作成した。
論文参考訳（メタデータ） (2023-11-30T18:32:14Z)
Mitigating stereotypical biases in text to image generative systems [10.068823600548157]
我々は、さまざまなテキストプロンプトから構築された知覚された皮膚のトーンや性別によって異なる合成データに対して、テキスト・ツー・イメージモデルを微調整することでこれを実現している。我々の多様性微調整(DFT)モデルは、知覚された肌のトーンが150%、知覚された性別が97.7%向上する。
論文参考訳（メタデータ） (2023-10-10T18:01:52Z)
ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。 Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文参考訳（メタデータ） (2023-09-11T15:54:30Z)
Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文参考訳（メタデータ） (2023-06-03T21:39:07Z)
Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。 DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文参考訳（メタデータ） (2023-03-30T05:29:13Z)
Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。このような違いを推定する自動手法を提案する。
論文参考訳（メタデータ） (2023-02-07T18:52:22Z)
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文参考訳（メタデータ） (2022-02-08T18:36:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。