論文の概要: "I don't see myself represented here at all": User Experiences of Stable Diffusion Outputs Containing Representational Harms across Gender Identities and Nationalities
- arxiv url: http://arxiv.org/abs/2408.01594v1
- Date: Fri, 2 Aug 2024 22:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:20:31.992558
- Title: "I don't see myself represented here at all": User Experiences of Stable Diffusion Outputs Containing Representational Harms across Gender Identities and Nationalities
- Title(参考訳): 「私はここでは表現できない」:ジェンダーのアイデンティティと国籍にまたがる表現的ハームを含む安定拡散出力のユーザ体験
- Authors: Sourojit Ghosh, Nina Lutz, Aylin Caliskan,
- Abstract要約: 133人のクラウドワーカーによるクラウドソースデータと、多様な国や性別における14の半構造化インタビューを組み合わせることで、安定拡散に関する最大の人的研究を行う。
われわれはまず,安定拡散出力に対するユーザ期待と,そのような期待から遠く離れたイメージを提供する人物の安定拡散反射のセットによって証明された出力との大規模な不一致を実証した。
そして、この一般的な不満の発見を、安定拡散によって引き起こされる表現的害、特に伝統的に疎外化されたアイデンティティを持つ被験者の強調に拡張する。
- 参考スコア(独自算出の注目度): 4.4212441764241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though research into text-to-image generators (T2Is) such as Stable Diffusion has demonstrated their amplification of societal biases and potentials to cause harm, such research has primarily relied on computational methods instead of seeking information from real users who experience harm, which is a significant knowledge gap. In this paper, we conduct the largest human subjects study of Stable Diffusion, with a combination of crowdsourced data from 133 crowdworkers and 14 semi-structured interviews across diverse countries and genders. Through a mixed-methods approach of intra-set cosine similarity hierarchies (i.e., comparing multiple Stable Diffusion outputs for the same prompt with each other to examine which result is 'closest' to the prompt) and qualitative thematic analysis, we first demonstrate a large disconnect between user expectations for Stable Diffusion outputs with those generated, evidenced by a set of Stable Diffusion renditions of `a Person' providing images far away from such expectations. We then extend this finding of general dissatisfaction into highlighting representational harms caused by Stable Diffusion upon our subjects, especially those with traditionally marginalized identities, subjecting them to incorrect and often dehumanizing stereotypes about their identities. We provide recommendations for a harm-aware approach to (re)design future versions of Stable Diffusion and other T2Is.
- Abstract(参考訳): 安定拡散のようなテキスト・ツー・イメージ・ジェネレータ(T2Is)の研究は、社会的バイアスや害を引き起こす可能性の増幅を実証してきたが、そのような研究は主に、害を経験する実際のユーザから情報を求めるのではなく、計算手法に依存しており、これは重要な知識ギャップである。
本稿では,133人のクラウドソーシングデータと,多様な国・性別を対象とした14の半構造化インタビューを組み合わせることで,安定拡散に関する最大の人的研究を行う。
集合内コサイン類似性階層の混合メソッドアプローチ(すなわち、同じプロンプトに対する複数の安定拡散出力を比較して、どの結果がプロンプトに最も近いかを調べる)と定性的セマンティック解析により、まず、安定拡散出力に対するユーザ期待と、そのような期待から遠く離れた画像を提供する「人」の安定拡散再帰によって証明された、生成されたものとの間の大きな不一致を示す。
そして、この一般的な不満の発見を、我々の被験者、特に伝統的に疎外されたアイデンティティを持つ人々に対する安定拡散による表現的害の強調に拡張し、それらのアイデンティティに関する不正確でしばしば非人間的なステレオタイプを課す。
我々は、安定拡散や他のT2Iの将来のバージョンを設計(再設計)するためのハーネスアウェアアプローチを提案する。
関連論文リスト
- Diffusion Facial Forgery Detection [56.69763252655695]
本稿では,顔に焦点をあてた拡散生成画像を対象とした包括的データセットであるDiFFを紹介する。
人体実験といくつかの代表的な偽造検出手法を用いて,DiFFデータセットの広範な実験を行った。
その結果、人間の観察者と自動検出者の2値検出精度は30%以下であることが判明した。
論文 参考訳(メタデータ) (2024-01-29T03:20:19Z) - DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition [43.01467525231004]
DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。
本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。
また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T21:20:43Z) - On the notion of Hallucinations from the lens of Bias and Validity in
Synthetic CXR Images [0.35998666903987897]
拡散モデルのような生成モデルは、データ品質と臨床情報の格差を軽減することを目的としている。
スタンフォード大学の研究者たちは、医療画像データ拡張のための微調整された安定拡散モデル(RoentGen)の有用性を探求した。
我々はRoentGenを利用してChest-XRay(CXR)画像を生成し、バイアス、妥当性、幻覚の評価を行った。
論文 参考訳(メタデータ) (2023-12-12T04:41:20Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Are Diffusion Models Vulnerable to Membership Inference Attacks? [26.35177414594631]
拡散に基づく生成モデルは、画像合成に大きな可能性を示しているが、それらが引き起こすセキュリティとプライバシのリスクに関する研究が不足している。
共通プライバシー問題であるMIAに対する拡散モデルの脆弱性について検討する。
ステップワイズ・エラー比較メンバーシップ推論(SecMI)は,各時刻における前処理後推定のマッチングを評価することで,メンバーシップを推測するクエリベースのMIAである。
論文 参考訳(メタデータ) (2023-02-02T18:43:16Z) - Fairness and robustness in anti-causal prediction [73.693135253335]
分散シフトと公平性に対するロバストさは、機械学習モデルに必要な2つの重要なデシラタとして独立に現れている。
これら2つのデシダラタは関連しているように見えるが、実際にはその関連性はしばしば不明である。
この観点から見れば、共通フェアネス基準(分離)とロバストネスの共通概念との明確な関係を描いています。
論文 参考訳(メタデータ) (2022-09-20T02:41:17Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。