論文の概要: Exploring Social Bias in Downstream Applications of Text-to-Image
Foundation Models
- arxiv url: http://arxiv.org/abs/2312.10065v1
- Date: Tue, 5 Dec 2023 14:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:46:06.209082
- Title: Exploring Social Bias in Downstream Applications of Text-to-Image
Foundation Models
- Title(参考訳): テキスト・画像基礎モデルの下流アプリケーションにおけるソーシャルバイアスの探索
- Authors: Adhithya Prakash Saravanan, Rafal Kocielnik, Roy Jiang, Pengrui Han,
Anima Anandkumar
- Abstract要約: 合成画像を用いて、社会的バイアスに対するテキスト・画像モデル、画像編集と分類の2つの応用を探索する。
提案手法を用いて,最先端のオープンソーステキスト・ツー・イメージ・モデルであるtextitStable Diffusion における有意義かつ有意義なセクション間社会的バイアスを明らかにする。
本研究は、下流業務・サービスにおけるテキスト・ツー・イメージ基盤モデルの導入について、未発表の点に注意を払っている。
- 参考スコア(独自算出の注目度): 72.06006736916821
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-image diffusion models have been adopted into key commercial
workflows, such as art generation and image editing. Characterising the
implicit social biases they exhibit, such as gender and racial stereotypes, is
a necessary first step in avoiding discriminatory outcomes. While existing
studies on social bias focus on image generation, the biases exhibited in
alternate applications of diffusion-based foundation models remain
under-explored. We propose methods that use synthetic images to probe two
applications of diffusion models, image editing and classification, for social
bias. Using our methodology, we uncover meaningful and significant
inter-sectional social biases in \textit{Stable Diffusion}, a state-of-the-art
open-source text-to-image model. Our findings caution against the uninformed
adoption of text-to-image foundation models for downstream tasks and services.
- Abstract(参考訳): テキストから画像への拡散モデルは、アート生成や画像編集といった重要な商用ワークフローに採用されている。
性別や人種のステレオタイプなど、彼らが示す暗黙の社会バイアスを特徴付けることは、差別的な結果を避けるための第一歩である。
社会バイアスに関する既存の研究は画像生成に重点を置いているが、拡散に基づく基礎モデルの代替応用で示されるバイアスは未探索のままである。
本稿では,合成画像を用いて拡散モデル,画像編集,分類の2つの応用を社会バイアスに適用する手法を提案する。
本手法を用いて,最先端のオープンソースのテキスト対画像モデルである \textit{stable diffusion} において,有意義かつ有意義な断面間社会バイアスを明らかにする。
本研究は,ダウンストリームタスクやサービスに対してテキストから画像への基盤モデルが不当に採用されていることに対して注意を喚起する。
関連論文リスト
- MIST: Mitigating Intersectional Bias with Disentangled Cross-Attention Editing in Text-to-Image Diffusion Models [3.3454373538792552]
本稿では,拡散型テキスト・画像モデルにおける交叉バイアスに対処する手法を提案する。
提案手法では,事前学習した安定拡散モデルを用いて,参照画像の追加の必要性を排除し,未修正概念の本来の品質を維持する。
論文 参考訳(メタデータ) (2024-03-28T17:54:38Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis [21.619269792415903]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念的カバレッジと公平性を通じてテキスト条件を検証した。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions in Diffusion Models [6.254873489691852]
本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。
提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-12-08T22:04:53Z) - Fair Text-to-Image Diffusion via Fair Mapping [32.02815667307623]
本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。
暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T15:02:01Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Text-to-image Diffusion Models in Generative AI: A Survey [86.11421833017693]
本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。
ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。