Fugu-MT 論文翻訳(概要): T2I-BiasBench: A Multi-Metric Framework for Auditing Demographic and Cultural Bias in Text-to-Image Models

論文の概要: T2I-BiasBench: A Multi-Metric Framework for Auditing Demographic and Cultural Bias in Text-to-Image Models

arxiv url: http://arxiv.org/abs/2604.12481v1
Date: Tue, 14 Apr 2026 09:05:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.363156
Title: T2I-BiasBench: A Multi-Metric Framework for Auditing Demographic and Cultural Bias in Text-to-Image Models
Title（参考訳）: T2I-BiasBench: テキスト・ツー・イメージモデルにおけるデモグラフィーと文化バイアスの監査のためのマルチメトリックフレームワーク
Authors: Nihal Jaiswal, Siddhartha Arjaria, Gyanendra Chaubey, Ankush Kumar, Aditya Singh, Anchal Chaurasiya,
Abstract要約: テキスト・ツー・イメージ(T2I)生成モデルは、印象的な視覚的忠実性を達成するが、人口動態の不均衡と学習データに埋め込まれた文化的バイアスを継承し、増幅する。 T2I-BiasBenchは、人口統計バイアス、元素の欠落、拡散モデルにおける文化的崩壊を共同で捉える13の相補的指標の統一評価フレームワークである。 1) 安定拡散v1.5とBK-SDMは美容関連プロンプトにおいてバイアス増幅(>1.0)を示し, (2) 外科的PPEなどの文脈制約はプロロール性バイアスを大幅に減らし, (3) 全てのモデルが狭い文化的表現に崩壊する。
参考スコア（独自算出の注目度）: 4.893066881387308
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Text-to-image (T2I) generative models achieve impressive visual fidelity but inherit and amplify demographic imbalances and cultural biases embedded in training data. We introduce T2I-BiasBench, a unified evaluation framework of thirteen complementary metrics that jointly captures demographic bias, element omission, and cultural collapse in diffusion models - the first framework to address all three dimensions simultaneously. We evaluate three open-source models - Stable Diffusion v1.5, BK-SDM Base, and Koala Lightning - against Gemini 2.5 Flash (RLHF-aligned) as a reference baseline. The benchmark comprises 1,574 generated images across five structured prompt categories. T2I-BiasBench integrates six established metrics with seven additional measures: four newly proposed (Composite Bias Score, Grounded Missing Rate, Implicit Element Missing Rate, Cultural Accuracy Ratio) and three adapted (Hallucination Score, Vendi Score, CLIP Proxy Score). Three key findings emerge: (1) Stable Diffusion v1.5 and BK-SDM exhibit bias amplification (>1.0) in beauty-related prompts; (2) contextual constraints such as surgical PPE substantially attenuate professional-role gender bias (Doctor CBS = 0.06 for SD v1.5); and (3) all models, including RLHF-aligned Gemini, collapse to a narrow set of cultural representations (CAS: 0.54-1.00), confirming that alignment techniques do not resolve cultural coverage gaps. T2I-BiasBench is publicly released to support standardized, fine-grained bias evaluation of generative models. The project page is available at: https://gyanendrachaubey.github.io/T2I-BiasBench/
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成モデルは、印象的な視覚的忠実性を達成するが、人口動態の不均衡と学習データに埋め込まれた文化的バイアスを継承し、増幅する。 T2I-BiasBenchは、人口統計バイアス、元素の欠落、拡散モデルにおける文化的崩壊を同時に捉える13の相補的指標の統一的な評価フレームワークである。我々は、Gemini 2.5 Flash (RLHF-aligned)に対して、安定拡散v1.5、BK-SDM Base、Koala Lightningの3つのオープンソースモデルを基準ベースラインとして評価した。ベンチマークは、5つの構造化されたプロンプトカテゴリにわたる1,574個の生成イメージで構成されている。 T2I-BiasBenchは、新たに提案された4つの指標(Comosite Bias Score, Grounded Missing Rate, Implicit Element Missing Rate, Cultural Accuracy Ratio)と3つの適応された(Hallucination Score, Vendi Score, CLIP Proxy Score)。 1)美容関連プロンプトにおける安定拡散v1.5とBK-SDMのバイアス増幅(>1.0)、(2)外科的PPEのようなコンテキスト制約はプロのロール性性バイアスを著しく減らし(Doctor CBS = 0.06 for SD v1.5)、(3)RLHFに整列したジェミニを含む全てのモデルが文化的な表現の狭いセット(CAS: 0.54-1.00)に崩壊し、アライメント技術が文化的カバレッジギャップを解決しないことを確認する。 T2I-BiasBenchは、生成モデルの標準化されたきめ細かいバイアス評価をサポートするために公開されている。プロジェクトページは、https://gyanendrachaubey.github.io/T2I-BiasBench/で公開されている。

関連論文リスト

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文参考訳（メタデータ） (2026-04-06T15:44:18Z)
Exposing Blindspots: Cultural Bias Evaluation in Generative Image Models [14.992895369883504]
先行研究は、主にテキスト・トゥ・イメージ(T2I)システムにおける文化的偏見を調査してきた。 6カ国で統一的な評価でこのギャップを埋める。クロスカントリー、クロスエラ、クロスカテゴリの評価を導出します。
論文参考訳（メタデータ） (2025-10-22T21:42:59Z)
The Telephone Game: Evaluating Semantic Drift in Unified Models [41.650904633974584]
単一の統一モデル(UM)を視覚的理解(画像からテキストへのI2T)と視覚生成(テキストから画像へのT2I)の両方に使用することで、ビジュアル言語モデル(VLM)研究の新しい方向性が開かれた。 FIDとGenEvalはT2I用であり、MMEやMMBenchはI2T用である。これらの孤立したシングルパスメトリクスは、相互整合性を明らかにしない。概念を"理解"するモデルが、それを"レンダリング"できるのか、意味的な意味を持つのか。
論文参考訳（メタデータ） (2025-09-04T17:53:52Z)
CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文参考訳（メタデータ） (2025-06-10T17:16:23Z)
CuRe: Cultural Gaps in the Long Tail of Text-to-Image Systems [28.181690831408833]
CuReは、文化的代表性のためのベンチマークとスコアリングスイートである。我々のデータセットは、32の文化サブカテゴリにまたがる300の文化的アーティファクトを6つの広い文化軸に分類している。我々は,視覚的類似性,イメージテキストのアライメント,文化的多様性の人的判断に対する,得点者の階級の強い相関を経験的に観察した。
論文参考訳（メタデータ） (2025-06-09T17:54:41Z)
Fairness-enhancing mixed effects deep learning improves fairness on in- and out-of-distribution clustered (non-iid) data [6.596656267996196]
フェア・ミックスド・エフェクト・ディープ・ラーニング(Fair MEDL)フレームワークを提案する。本フレームワークは,1)不変なFEを学習するためのクラスタ逆効果,2)REのためのベイズニューラルネットワーク,3)最終的な予測のためにFEとREを組み合わせた混合関数,を通じて,クラスタ不変な固定効果(FE)とクラスタ固有ランダムエフェクト(RE)を定量化する。公正なMEDLフレームワークは、年齢で86.4%、人種で64.9%、性で57.8%、結婚で36.2%の公正性を向上し、堅牢な予測性能を維持している。
論文参考訳（メタデータ） (2023-10-04T20:18:45Z)
Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文参考訳（メタデータ） (2023-08-19T05:34:13Z)
Balanced Classification: A Unified Framework for Long-Tailed Object Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。 BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-08-04T09:11:07Z)
On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-06T13:17:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。