論文の概要: VersusDebias: Universal Zero-Shot Debiasing for Text-to-Image Models via SLM-Based Prompt Engineering and Generative Adversary
- arxiv url: http://arxiv.org/abs/2407.19524v2
- Date: Sat, 3 Aug 2024 14:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:59:40.934502
- Title: VersusDebias: Universal Zero-Shot Debiasing for Text-to-Image Models via SLM-Based Prompt Engineering and Generative Adversary
- Title(参考訳): VersusDebias: SLMベースのプロンプトエンジニアリングとジェネレーティブ・アドバイザリーによるテキスト・ツー・イメージモデルのためのユニバーサルゼロショットデバイアス
- Authors: Hanjun Luo, Ziye Deng, Haoyu Huang, Xuecheng Liu, Ruizhe Chen, Zuozhu Liu,
- Abstract要約: テキスト・ツー・イメージモデルにおいて,1つの生成逆数機構 (GAM) と1つの生成逆数生成機構 (SLM) からなるバイアスに対する新しい普遍的バイアス発生機構を導入する。
SLMはプロンプトエンジニアリングを使用してT2Iモデルのデバイアスドプロンプトを生成し、異なるモデルのゼロショットデバイアス機能とカスタム最適化を提供する。
- 参考スコア(独自算出の注目度): 8.24274551090375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of Text-to-Image models, biases in human image generation against demographic groups social attract more and more concerns. Existing methods are designed based on certain models with fixed prompts, unable to accommodate the trend of high-speed updating of Text-to-Image (T2I) models and variable prompts in practical scenes. Additionally, they fail to consider the possibility of hallucinations, leading to deviations between expected and actual results. To address this issue, we introduce VersusDebias, a novel and universal debiasing framework for biases in T2I models, consisting of one generative adversarial mechanism (GAM) and one debiasing generation mechanism using a small language model (SLM). The self-adaptive GAM generates specialized attribute arrays for each prompts for diminishing the influence of hallucinations from T2I models. The SLM uses prompt engineering to generate debiased prompts for the T2I model, providing zero-shot debiasing ability and custom optimization for different models. Extensive experiments demonstrate VersusDebias's capability to rectify biases on arbitrary models across multiple protected attributes simultaneously, including gender, race, and age. Furthermore, VersusDebias outperforms existing methods in both zero-shot and few-shot situations, illustrating its extraordinary utility. Our work is openly accessible to the research community to ensure the reproducibility.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルの急速な発展に伴い、人口集団に対する人間の画像生成のバイアスがますます関心を惹きつける。
既存の手法は、一定のプロンプトを持つ特定のモデルに基づいて設計されており、実用シーンにおけるテキスト・ツー・イメージ(T2I)モデルの高速更新や可変プロンプトの傾向に適応できない。
さらに、幻覚の可能性を考慮することができず、期待された結果と実際の結果の間に偏りが生じる。
この問題に対処するために、我々は、T2Iモデルにおけるバイアスの新しい普遍的脱バイアスフレームワークであるVersusDebiasを紹介した。
自己適応型GAMは、T2Iモデルから幻覚の影響を減少させるプロンプト毎に特別な属性アレイを生成する。
SLMはプロンプトエンジニアリングを使用してT2Iモデルのデバイアスドプロンプトを生成し、異なるモデルのゼロショットデバイアス機能とカスタム最適化を提供する。
大規模な実験は、VersusDebiasの性、人種、年齢など、複数の保護された属性にわたる任意のモデルのバイアスを同時に修正する能力を実証している。
さらにVersusDebiasは、ゼロショットと少数ショットの両方の状況において既存の手法よりも優れており、その異常な実用性を示している。
私たちの仕事は、再現性を確保するために、オープンに研究コミュニティにアクセスできます。
関連論文リスト
- Evaluating Model Bias Requires Characterizing its Mistakes [19.777130236160712]
スキューサイズ(SkewSize)は、モデルの予測における誤りからバイアスを捉える、原則付きフレキシブルなメトリクスである。
マルチクラスの設定で使用したり、生成モデルのオープンな語彙設定に一般化することができる。
合成データで訓練された標準的な視覚モデル、ImageNetで訓練された視覚モデル、BLIP-2ファミリーの大規模視覚言語モデルなどである。
論文 参考訳(メタデータ) (2024-07-15T11:46:21Z) - Severity Controlled Text-to-Image Generative Model Bias Manipulation [49.60774626839712]
テキスト・ツー・イメージ(T2I)生成モデルは,特にパブリックドメインにおいて広く普及している。
まず,組込み言語モデルによるモデルバイアスの動的かつ効率的な活用の可能性を明らかにする。
我々は,T2Iモデルの潜在的な操作可能性を明らかにするために,興味深い定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-04-03T07:33:30Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Generative Visual Prompt: Unifying Distributional Control of Pre-Trained
Generative Models [77.47505141269035]
Generative Visual Prompt (PromptGen) は、事前訓練された生成モデルの分散制御のためのフレームワークである。
PromptGenはエネルギーベースモデル(EBM)を近似し、フィードフォワード方式で画像をサンプリングする。
コードはhttps://github.com/ChenWu98/Generative-Visual-Prompt.comで入手できる。
論文 参考訳(メタデータ) (2022-09-14T22:55:18Z) - Reducing the Vision and Language Bias for Temporal Sentence Grounding [22.571577672704716]
本稿では,視覚と言語の両方において負のバイアスをフィルタし,除去するためのD-TSGモデルを提案する。
3つのベンチマークデータセット上で最先端の性能を達成することで、その効果を実証する。
論文 参考訳(メタデータ) (2022-07-27T11:18:45Z) - Exposing Length Divergence Bias of Textual Matching Models [21.848338643614316]
テキストマッチング(TM)モデルの長偏差バイアスについて検討する。
このバイアスは、既存のTMデータセットのラベルバイアスと、表面情報に対するTMモデルの感度の2つの部分に由来する。
TMモデルの長偏差バイアスを軽減するために,偏差のないトレーニングデータを用いた現実的な対角トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-06T13:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。