論文の概要: What is a Fair Diffusion Model? Designing Generative Text-To-Image
Models to Incorporate Various Worldviews
- arxiv url: http://arxiv.org/abs/2309.09944v1
- Date: Mon, 18 Sep 2023 17:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:09:03.029122
- Title: What is a Fair Diffusion Model? Designing Generative Text-To-Image
Models to Incorporate Various Worldviews
- Title(参考訳): 公正拡散モデルとは何か?
様々な世界観を取り入れた生成テキスト・画像モデルの設計
- Authors: Zoe De Simone and Angie Boggust and Arvind Satyanarayan and Ashia
Wilson
- Abstract要約: DiffusionWorldViewerは、GTIモデルの姿勢、価値観、ストーリー、そして生成された画像に影響を与える世界の期待を分析し、操作するツールです。
WebベースのGUIとJupyter Notebookプラグインとしてデプロイされるインタラクティブインターフェースを通じて、DiffusionWorldViewerは、GTI生成イメージの既存の人口層を分類する。
13人のGTIユーザを対象にした調査では,DiffusionWorldViewerによって,GTIのアウトプットが公正であることに関して,ユーザがさまざまな視点を表現できることが判明した。
- 参考スコア(独自算出の注目度): 15.854056880418808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative text-to-image (GTI) models produce high-quality images from short
textual descriptions and are widely used in academic and creative domains.
However, GTI models frequently amplify biases from their training data, often
producing prejudiced or stereotypical images. Yet, current bias mitigation
strategies are limited and primarily focus on enforcing gender parity across
occupations. To enhance GTI bias mitigation, we introduce DiffusionWorldViewer,
a tool to analyze and manipulate GTI models' attitudes, values, stories, and
expectations of the world that impact its generated images. Through an
interactive interface deployed as a web-based GUI and Jupyter Notebook plugin,
DiffusionWorldViewer categorizes existing demographics of GTI-generated images
and provides interactive methods to align image demographics with user
worldviews. In a study with 13 GTI users, we find that DiffusionWorldViewer
allows users to represent their varied viewpoints about what GTI outputs are
fair and, in doing so, challenges current notions of fairness that assume a
universal worldview.
- Abstract(参考訳): gti(generative text-to-image)モデルは、短いテキスト記述から高品質の画像を生成し、学術的および創造的な領域で広く使われている。
しかし、GTIモデルはトレーニングデータからバイアスを増幅し、偏見やステレオタイプ画像を生成することが多い。
しかし、現在の偏見緩和戦略は限定的であり、主に職業間の男女平等を強制することに焦点を当てている。
GTIのバイアス緩和を強化するために、GTIモデルの姿勢、価値観、ストーリー、および生成された画像に影響を与える世界の期待を分析し、操作するツールであるDiffusionWorldViewerを紹介する。
WebベースのGUIとJupyter Notebookプラグインとしてデプロイされるインタラクティブインターフェースを通じて、DiffusionWorldViewerは、GTI生成画像の既存の人口層を分類し、画像の人口層とユーザ世界ビューを整合させるインタラクティブな方法を提供する。
13 人の GTI ユーザを対象にした研究では,DiffusionWorldViewer を用いて,GTI 出力の公正性に関するさまざまな視点を表現できることが判明した。
関連論文リスト
- ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [57.65212674209634]
本稿では,Wild 動画を多用した事前学習型世界モデルの問題について検討する。
コンテキストと動的の両方を明示的にモデル化するContextualized World Models(ContextWM)を導入する。
実験の結果,ContextWMを組み込んだ動画事前学習は,モデルベース強化学習のサンプル効率を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Subject-driven Text-to-Image Generation via Apprenticeship Learning [71.19329854726595]
本研究では,テキスト・トゥ・イメージ・ジェネレータのSuTIについて述べる。
SuTIは見習いの学習を利用しており、そこでは、多数の主題固有のエキスパートモデルによって生成されたデータから、単一の見習いモデルが学習される。
SuTIは、InstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBoothといった既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-04-01T00:47:35Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [117.3856882511919]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Decoupled Spatial Temporal Graphs for Generic Visual Grounding [120.66884671951237]
この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。
我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
論文 参考訳(メタデータ) (2021-03-18T11:56:29Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。