論文の概要: Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search
- arxiv url: http://arxiv.org/abs/2512.08724v1
- Date: Tue, 09 Dec 2025 15:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.025864
- Title: Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search
- Title(参考訳): 自動プロンプト検索によるテキスト・画像モデルにおける隠れバイアスの抽出
- Authors: Manos Plitsis, Giorgos Bouritsas, Vassilis Katsouros, Yannis Panagakis,
- Abstract要約: Bias-Guided Prompt Search (BGPS)は、画像内のバイアスの存在を最大化するプロンプトを自動的に生成するフレームワークである。
BGPSは、(1)属性ニュートラルなプロンプトを生成するよう指示されたLLMと、(2)TTIの内部表現に作用する属性分類器の2つのコンポーネントから構成される。
我々は、安定拡散1.5と最先端の縮退モデルに関する広範な実験を行い、微妙で以前は文書化されていなかったバイアスの配列を発見する。
- 参考スコア(独自算出の注目度): 18.386455479798574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (TTI) diffusion models have achieved remarkable visual quality, yet they have been repeatedly shown to exhibit social biases across sensitive attributes such as gender, race and age. To mitigate these biases, existing approaches frequently depend on curated prompt datasets - either manually constructed or generated with large language models (LLMs) - as part of their training and/or evaluation procedures. Beside the curation cost, this also risks overlooking unanticipated, less obvious prompts that trigger biased generation, even in models that have undergone debiasing. In this work, we introduce Bias-Guided Prompt Search (BGPS), a framework that automatically generates prompts that aim to maximize the presence of biases in the resulting images. BGPS comprises two components: (1) an LLM instructed to produce attribute-neutral prompts and (2) attribute classifiers acting on the TTI's internal representations that steer the decoding process of the LLM toward regions of the prompt space that amplify the image attributes of interest. We conduct extensive experiments on Stable Diffusion 1.5 and a state-of-the-art debiased model and discover an array of subtle and previously undocumented biases that severely deteriorate fairness metrics. Crucially, the discovered prompts are interpretable, i.e they may be entered by a typical user, quantitatively improving the perplexity metric compared to a prominent hard prompt optimization counterpart. Our findings uncover TTI vulnerabilities, while BGPS expands the bias search space and can act as a new evaluation tool for bias mitigation.
- Abstract(参考訳): テキスト・ツー・イメージ(TTI)拡散モデルは目覚しい視覚的品質を達成しているが、性別、人種、年齢などのセンシティブな属性にまたがる社会的偏見が繰り返し示されている。
これらのバイアスを軽減するために、既存のアプローチは、トレーニングや評価手順の一部として、手動で構築されたり、大きな言語モデル(LLM)で生成されたりする、キュレートされたプロンプトデータセットに依存することが多い。
キュレーションコストの他には、偏りが生じるモデルであっても、予想外の、明らかでないプロンプトを見落としてしまうリスクもある。
本研究では,BGPS(Bias-Guided Prompt Search)という,画像中のバイアスの存在を最大化するためのプロンプトを自動生成するフレームワークを紹介する。
BGPSは、(1)属性ニュートラルなプロンプトを生成するよう指示されたLCMと、(2)関心のイメージ属性を増幅するプロンプト空間の領域に向けてLLMの復号過程を操るTTIの内部表現に作用する属性分類器である。
安定拡散1.5と最先端の縮退モデルについて広範な実験を行い、微妙で未文書化されたバイアスの配列を発見し、不公平度を著しく低下させる。
重要なことに、発見されたプロンプトは解釈可能である。すなわち、典型的なユーザーによって入力され、顕著なハードプロンプト最適化の指標と比較して、難易度メートル法を定量的に改善する。
我々の発見はTTIの脆弱性を明らかにし、BGPSはバイアス検索空間を拡張し、バイアス軽減のための新しい評価ツールとして機能する。
関連論文リスト
- SAGE: Spuriousness-Aware Guided Prompt Exploration for Mitigating Multimodal Bias [43.06550296269926]
CLIPのような大規模視覚言語モデルは、画像とテキストを共有埋め込み空間で整列することで、ゼロショット分類性能が強い。
しかし、CLIPモデルは、しばしば多重モーダルなスプリアスバイアスを生じさせ、これはスプリアス機能に依存する好ましくない傾向である。
SAGE(Spuriousness-Aware Guided Exploration)を提案する。
論文 参考訳(メタデータ) (2025-11-17T05:52:32Z) - Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。
提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-10-21T02:19:12Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection [17.590853105242864]
視覚言語モデル(例えばCLIP)はゼロショット異常検出(ZSAD)において顕著な性能を示した。
Bayes-PFL は画像固有の分布と画像に依存しない分布の両方を学習するために設計されており、テキストプロンプト空間を正規化し、未知のカテゴリにおけるモデルの一般化を改善するために共同で使用される。
15の産業用および医療用データセットに対する実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2025-03-13T06:05:35Z) - VersusDebias: Universal Zero-Shot Debiasing for Text-to-Image Models via SLM-Based Prompt Engineering and Generative Adversary [8.24274551090375]
本稿では,任意のテキスト・トゥ・イメージ(T2I)モデルにおけるバイアスに対する新奇で普遍的なデバイアスフレームワークであるVersusDebiasを紹介する。
自己適応モジュールは、プロセス後の幻覚と複数の属性を同時にデバイアスする特別な属性配列を生成する。
ゼロショットと少数ショットの両方のシナリオでは、VersusDebiasは既存のメソッドよりも優れており、例外的なユーティリティを示している。
論文 参考訳(メタデータ) (2024-07-28T16:24:07Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。