論文の概要: Exploring Social Bias in Downstream Applications of Text-to-Image
Foundation Models
- arxiv url: http://arxiv.org/abs/2312.10065v1
- Date: Tue, 5 Dec 2023 14:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:46:06.209082
- Title: Exploring Social Bias in Downstream Applications of Text-to-Image
Foundation Models
- Title(参考訳): テキスト・画像基礎モデルの下流アプリケーションにおけるソーシャルバイアスの探索
- Authors: Adhithya Prakash Saravanan, Rafal Kocielnik, Roy Jiang, Pengrui Han,
Anima Anandkumar
- Abstract要約: 合成画像を用いて、社会的バイアスに対するテキスト・画像モデル、画像編集と分類の2つの応用を探索する。
提案手法を用いて,最先端のオープンソーステキスト・ツー・イメージ・モデルであるtextitStable Diffusion における有意義かつ有意義なセクション間社会的バイアスを明らかにする。
本研究は、下流業務・サービスにおけるテキスト・ツー・イメージ基盤モデルの導入について、未発表の点に注意を払っている。
- 参考スコア(独自算出の注目度): 72.06006736916821
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-image diffusion models have been adopted into key commercial
workflows, such as art generation and image editing. Characterising the
implicit social biases they exhibit, such as gender and racial stereotypes, is
a necessary first step in avoiding discriminatory outcomes. While existing
studies on social bias focus on image generation, the biases exhibited in
alternate applications of diffusion-based foundation models remain
under-explored. We propose methods that use synthetic images to probe two
applications of diffusion models, image editing and classification, for social
bias. Using our methodology, we uncover meaningful and significant
inter-sectional social biases in \textit{Stable Diffusion}, a state-of-the-art
open-source text-to-image model. Our findings caution against the uninformed
adoption of text-to-image foundation models for downstream tasks and services.
- Abstract(参考訳): テキストから画像への拡散モデルは、アート生成や画像編集といった重要な商用ワークフローに採用されている。
性別や人種のステレオタイプなど、彼らが示す暗黙の社会バイアスを特徴付けることは、差別的な結果を避けるための第一歩である。
社会バイアスに関する既存の研究は画像生成に重点を置いているが、拡散に基づく基礎モデルの代替応用で示されるバイアスは未探索のままである。
本稿では,合成画像を用いて拡散モデル,画像編集,分類の2つの応用を社会バイアスに適用する手法を提案する。
本手法を用いて,最先端のオープンソースのテキスト対画像モデルである \textit{stable diffusion} において,有意義かつ有意義な断面間社会バイアスを明らかにする。
本研究は,ダウンストリームタスクやサービスに対してテキストから画像への基盤モデルが不当に採用されていることに対して注意を喚起する。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [127.67444974452411]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Evaluating Text-to-Image Generative Models: An Empirical Study on Human
Image Synthesis [22.550416199280953]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。
コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions in Diffusion Models [6.254873489691852]
本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。
提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-12-08T22:04:53Z) - Fair Text-to-Image Diffusion via Fair Mapping [32.02815667307623]
本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。
暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T15:02:01Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Discriminative Diffusion Models as Few-shot Vision and Language Learners [91.38524112662448]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - Text-to-image Diffusion Models in Generative AI: A Survey [75.32882187215394]
本稿では,テキストコンディショニング画像合成における最先端手法,すなわちテキスト・トゥ・イメージについて概観する。
我々はテキスト・ツー・イメージ・ジェネレーションを超える応用について論じる:テキスト・ガイド・クリエイティブ・ジェネレーションとテキスト・ガイド・イメージ・編集。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z) - Bias-to-Text: Debiasing Unknown Visual Biases through Language
Interpretation [72.02386627482056]
本稿では,視覚モデルにおけるバイアスを識別・緩和するB2Tフレームワークを提案する。
視覚バイアスの言語記述は、新しいバイアスの発見と効果的なモデルバイアスの発見を可能にする説明可能な形式を提供する。
様々な画像分類・生成タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。