論文の概要: What is a Fair Diffusion Model? Designing Generative Text-To-Image
Models to Incorporate Various Worldviews
- arxiv url: http://arxiv.org/abs/2309.09944v1
- Date: Mon, 18 Sep 2023 17:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:09:03.029122
- Title: What is a Fair Diffusion Model? Designing Generative Text-To-Image
Models to Incorporate Various Worldviews
- Title(参考訳): 公正拡散モデルとは何か?
様々な世界観を取り入れた生成テキスト・画像モデルの設計
- Authors: Zoe De Simone and Angie Boggust and Arvind Satyanarayan and Ashia
Wilson
- Abstract要約: DiffusionWorldViewerは、GTIモデルの姿勢、価値観、ストーリー、そして生成された画像に影響を与える世界の期待を分析し、操作するツールです。
WebベースのGUIとJupyter Notebookプラグインとしてデプロイされるインタラクティブインターフェースを通じて、DiffusionWorldViewerは、GTI生成イメージの既存の人口層を分類する。
13人のGTIユーザを対象にした調査では,DiffusionWorldViewerによって,GTIのアウトプットが公正であることに関して,ユーザがさまざまな視点を表現できることが判明した。
- 参考スコア(独自算出の注目度): 15.854056880418808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative text-to-image (GTI) models produce high-quality images from short
textual descriptions and are widely used in academic and creative domains.
However, GTI models frequently amplify biases from their training data, often
producing prejudiced or stereotypical images. Yet, current bias mitigation
strategies are limited and primarily focus on enforcing gender parity across
occupations. To enhance GTI bias mitigation, we introduce DiffusionWorldViewer,
a tool to analyze and manipulate GTI models' attitudes, values, stories, and
expectations of the world that impact its generated images. Through an
interactive interface deployed as a web-based GUI and Jupyter Notebook plugin,
DiffusionWorldViewer categorizes existing demographics of GTI-generated images
and provides interactive methods to align image demographics with user
worldviews. In a study with 13 GTI users, we find that DiffusionWorldViewer
allows users to represent their varied viewpoints about what GTI outputs are
fair and, in doing so, challenges current notions of fairness that assume a
universal worldview.
- Abstract(参考訳): gti(generative text-to-image)モデルは、短いテキスト記述から高品質の画像を生成し、学術的および創造的な領域で広く使われている。
しかし、GTIモデルはトレーニングデータからバイアスを増幅し、偏見やステレオタイプ画像を生成することが多い。
しかし、現在の偏見緩和戦略は限定的であり、主に職業間の男女平等を強制することに焦点を当てている。
GTIのバイアス緩和を強化するために、GTIモデルの姿勢、価値観、ストーリー、および生成された画像に影響を与える世界の期待を分析し、操作するツールであるDiffusionWorldViewerを紹介する。
WebベースのGUIとJupyter Notebookプラグインとしてデプロイされるインタラクティブインターフェースを通じて、DiffusionWorldViewerは、GTI生成画像の既存の人口層を分類し、画像の人口層とユーザ世界ビューを整合させるインタラクティブな方法を提供する。
13 人の GTI ユーザを対象にした研究では,DiffusionWorldViewer を用いて,GTI 出力の公正性に関するさまざまな視点を表現できることが判明した。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - DiCTI: Diffusion-based Clothing Designer via Text-guided Input [5.275658744475251]
DiCTI (Diffusion-based Clothing Designer via Text-guided Input)は、デザイナーがテキスト入力のみを使用してファッション関連のアイデアを素早く視覚化できるようにする。
テキスト入力に条件付けされた強力な拡散ベースの塗装モデルを活用することで、DICTIは、さまざまな衣料デザインで、説得力のある高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2024-07-04T12:48:36Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Subject-driven Text-to-Image Generation via Apprenticeship Learning [83.88256453081607]
本研究では,テキスト・トゥ・イメージ・ジェネレータのSuTIについて述べる。
SuTIは見習いの学習を利用しており、そこでは、多数の主題固有のエキスパートモデルによって生成されたデータから、単一の見習いモデルが学習される。
SuTIは、InstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBoothといった既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-04-01T00:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。