論文の概要: Who Defines Fairness? Target-Based Prompting for Demographic Representation in Generative Models
- arxiv url: http://arxiv.org/abs/2604.21036v1
- Date: Wed, 22 Apr 2026 19:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.153217
- Title: Who Defines Fairness? Target-Based Prompting for Demographic Representation in Generative Models
- Title(参考訳): フェアネスを誰が定義するか : 生成モデルにおけるデモグラフィック表現のためのターゲットベースプロンプト
- Authors: Marzia Binta Nizam, James Davis,
- Abstract要約: 生成的AIシステムは、社会的バイアスを再現することが多い。
本稿では,モデルの変更を伴わずに,即時介入による表現バイアスを軽減する軽量な推論時フレームワークを提案する。
この研究は、公正な介入を透過的で制御可能で、推論時に使用することができるかを示し、生成AIのユーザーに直接力を与える。
- 参考スコア(独自算出の注目度): 2.9107534257071817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image(T2I) models like Stable Diffusion and DALL-E have made generative AI widely accessible, yet recent studies reveal that these systems often replicate societal biases, particularly in how they depict demographic groups across professions. Prompts such as 'doctor' or 'CEO' frequently yield lighter-skinned outputs, while lower-status roles like 'janitor' show more diversity, reinforcing stereotypes. Existing mitigation methods typically require retraining or curated datasets, making them inaccessible to most users. We propose a lightweight, inference-time framework that mitigates representational bias through prompt-level intervention without modifying the underlying model. Instead of assuming a single definition of fairness, our approach allows users to select among multiple fairness specifications-ranging from simple choices such as a uniform distribution to more complex definitions informed by a large language model(LLM) that cites sources and provides confidence estimates. These distributions guide the construction of demographic specific prompt variants in the corresponding proportions, and we evaluate alignment by auditing adherence to the declared target and measuring the resulting skin tone distribution rather than assuming uniformity as 'fairness'. Across 36 prompts spanning 30 occupations and 6 non-occupational contexts, our method shifts observed skin-tone outcomes in directions consistent with the declared target, and reduces deviation from targets when the target is defined directly in skin-tone space(fallback). This work demonstrates how fairness interventions can be made transparent, controllable, and usable at inference time, directly empowering users of generative AI.
- Abstract(参考訳): 安定拡散(Stable Diffusion)やDALL-E(DALL-E)のようなテキスト・トゥ・イメージ(Text-to-image、T2I)モデルは、生成AIを広くアクセス可能にするが、最近の研究では、これらのシステムが社会的偏見をしばしば再現している。
ドクター(Doctor)やCEO(CEO)のようなプロンプトは、しばしば軽い肌のアウトプットを産み出すが、"管理人"のような低位の役割は、より多様性を示し、ステレオタイプを補強する。
既存の緩和方法は、通常、再トレーニングまたはキュレートされたデータセットを必要とするため、ほとんどのユーザにはアクセスできない。
本稿では,モデルの変更を伴わずに,即時介入による表現バイアスを軽減する軽量な推論時フレームワークを提案する。
提案手法では,一様分布のような単純な選択から,情報源を引用し,信頼度を推定する大規模言語モデル(LLM)に伝達されるより複雑な定義まで,複数のフェアネス仕様の1つを選択することができる。
これらの分布は, 人口分布に比例した人口統計学的急激な変種の構成を導いており, 同一性を「フェアネス」と仮定するのではなく, 宣言対象への付着を監査し, 結果として生じる皮膚のトーン分布を測定することでアライメントを評価する。
本手法は,30の職業と6の非占有状況にまたがる36の領域において,検出対象と一致した方向に観察された皮膚音結果のシフトを誘導し,標的が皮膚音空間内で直接定義される場合(フォールバック)に目標からの偏差を減少させる。
この研究は、公正な介入を透過的で制御可能で、推論時に使用することができるかを示し、生成AIのユーザーに直接力を与える。
関連論文リスト
- Silenced Biases: The Dark Side LLMs Learned to Refuse [5.2630646053506345]
モデルの潜在空間内にエンコードされた不公平な選好であるサイレントバイアスの概念を導入する。
我々は,アクティベーションステアリングを用いて,これらのバイアスを明らかにすることを目的としたサイレンスドバイアスベンチマーク(SBB)を提案する。
論文 参考訳(メタデータ) (2025-11-05T11:24:50Z) - Judging with Confidence: Calibrating Autoraters to Preference Distributions [56.17041629492863]
信頼性の高いオートラッターは、対象の個体群によって定義される嗜好の完全な分布をモデル化することを学ぶ必要がある、と我々は主張する。
異なるデータ条件に合わせた2つの学習方法を提案する。
この結果から, 分布マッチング目的の微調整オートレーダは, 目的の好み分布に整合した有言確率予測を導出することがわかった。
論文 参考訳(メタデータ) (2025-09-30T20:36:41Z) - Who's Asking? Investigating Bias Through the Lens of Disability Framed Queries in LLMs [2.722784054643991]
大規模言語モデル(LLM)は、ユーザの人口統計特性を、単独で推測する。
これらの推論を形作る際の障害の手がかりは、ほとんど未発見のままである。
そこで本研究では,障害条件による人口統計バイアスを,最先端の8つのLLMに対して,初めて体系的に評価した。
論文 参考訳(メタデータ) (2025-08-18T21:03:09Z) - Fairness-Aware Grouping for Continuous Sensitive Variables: Application for Debiasing Face Analysis with respect to Skin Tone [3.3298048942057523]
連続的(多次元的)な属性に対する公平性に基づくグループ化手法を提案する。
識別レベルに応じてデータをグループ化することにより、新しい基準を最大化する分割を同定する。
提案手法を複数の合成データセットを用いて検証し,人口分布の変化によるロバスト性を示す。
論文 参考訳(メタデータ) (2025-07-15T12:21:52Z) - Small Changes, Large Consequences: Analyzing the Allocational Fairness of LLMs in Hiring Contexts [19.20592062296075]
大規模言語モデル(LLM)は、採用のような高度なアプリケーションにますますデプロイされている。
本研究は、実際の人事利用を反映した2つのタスクを通して、LLMベースの採用システムの割当公平性を検討する。
論文 参考訳(メタデータ) (2025-01-08T07:28:10Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Learning Informative Representation for Fairness-aware Multivariate
Time-series Forecasting: A Group-based Perspective [50.093280002375984]
多変量時系列予測モデル(MTS)では変数間の性能不公平性が広く存在する。
フェアネスを意識したMTS予測のための新しいフレームワークであるFairForを提案する。
論文 参考訳(メタデータ) (2023-01-27T04:54:12Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。