論文の概要: IndicFairFace: Balanced Indian Face Dataset for Auditing and Mitigating Geographical Bias in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.12659v1
- Date: Fri, 13 Feb 2026 06:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.869218
- Title: IndicFairFace: Balanced Indian Face Dataset for Auditing and Mitigating Geographical Bias in Vision-Language Models
- Title(参考訳): IndicFairFace:視覚・言語モデルにおける地理バイアスの監査・緩和のためのバランス付きインド顔データセット
- Authors: Aarish Shah Mohsin, Mohammed Tayyab Ilyas Khan, Mohammad Nadeem, Shahab Saquib Sohail, Erik Cambria, Jiechao Gao,
- Abstract要約: VLM(Vision-Language Models)は、Webスケールのトレーニングデータから社会的バイアスを継承し、増幅することが知られている。
IndicFairFaceは、インドの地理的多様性を表す14,400の画像からなる、新しくバランスの取れた顔データセットである。
- 参考スコア(独自算出の注目度): 33.41922953936466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are known to inherit and amplify societal biases from their web-scale training data with Indian being particularly misrepresented. Existing fairness-aware datasets have significantly improved demographic balance across global race and gender groups, yet they continue to treat Indian as a single monolithic category. The oversimplification ignores the vast intra-national diversity across 28 states and 8 Union Territories of India and leads to representational and geographical bias. To address the limitation, we present IndicFairFace, a novel and balanced face dataset comprising 14,400 images representing geographical diversity of India. Images were sourced ethically from Wikimedia Commons and open-license web repositories and uniformly balanced across states and gender. Using IndicFairFace, we quantify intra-national geographical bias in prominent CLIP-based VLMs and reduce it using post-hoc Iterative Nullspace Projection debiasing approach. We also show that the adopted debiasing approach does not adversely impact the existing embedding space as the average drop in retrieval accuracy on benchmark datasets is less than 1.5 percent. Our work establishes IndicFairFace as the first benchmark to study geographical bias in VLMs for the Indian context.
- Abstract(参考訳): VLM(Vision-Language Models)は、Webスケールのトレーニングデータから社会的バイアスを継承し、増幅することが知られている。
既存の公正を意識したデータセットは、グローバル人種とジェンダーグループ間の人口収支を著しく改善してきたが、インドを単一のモノリシックなカテゴリーとして扱い続けている。
この単純化は28の州と8の連合領インドにおける国内外の多様性を無視し、代表的・地理的偏見をもたらす。
IndicFairFaceは、インドにおける地理的多様性を表す14,400の画像からなる、新しくバランスの取れた顔データセットである。
画像はウィキメディア・コモンズ(Wikimedia Commons)とオープンライセンスのウェブレポジトリから倫理的にソースされ、州と性別で均一にバランスを取っている。
IndicFairFaceを用いて、有名なCLIPベースのVLMの地理的バイアスを定量化し、ポストホックなイテレーティブなNullspace Projection debiasingアプローチを用いて低減する。
また,ベンチマークデータセットの検索精度の平均低下が1.5パーセント未満であることから,従来の組込みスペースに悪影響を及ぼさないことも示している。
我々の研究はインドにおけるVLMにおける地理的バイアスを研究する最初のベンチマークとしてIndicFairFaceを確立した。
関連論文リスト
- Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models [81.45743826739054]
大きな障壁は、LAION-400MのようなWebスケールデータセットにおける人口統計アノテーションの欠如である。
2億7600万以上のバウンディングボックスや、性別や人種/民族ラベルの認識、キャプションの自動生成など、完全なデータセットのための人中心アノテーションを作成します。
それらを用いて、黒人や中東と見なされる男性や個人と犯罪に関連する負のコンテンツとの不均等な結びつきなど、人口不均衡や有害な関連を明らかにする。
論文 参考訳(メタデータ) (2025-10-04T07:51:59Z) - How Deep Is Representational Bias in LLMs? The Cases of Caste and Religion [25.340454708475754]
我々は、宗教と鋳造のための大きな言語モデルにおける表現バイアスの存在と「粘り強さ」を定量化する。
GPT-4の反応は、文化的に支配的な集団を、その統計的表現をはるかに超越している。
以上の結果から, LLMにおける表現バイアスは, 学習データにおける分布バイアスよりも, あらゆる品質に偏りがあることが示唆された。
論文 参考訳(メタデータ) (2025-07-22T17:28:37Z) - FairI Tales: Evaluation of Fairness in Indian Contexts with a Focus on Bias and Stereotypes [23.71105683137539]
フェアネスに関する既存の研究は、主に西洋に焦点を絞っており、インドのような文化的に多様な国では不十分である。
インドを中心とした総合的なベンチマークであるINDIC-BIASを導入し,85の社会アイデンティティグループを対象としたLCMの公平性を評価する。
論文 参考訳(メタデータ) (2025-06-29T06:31:06Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context [32.48196952339581]
インドにおける社会的バイアスを評価するためのベンチマークデータセットであるIndiBiasを紹介する。
バイアスの次元には、性別、宗教、キャスト、年齢、地域、身体的外観、職業が含まれる。
我々のデータセットには800の文対と300の偏差測定が含まれている。
論文 参考訳(メタデータ) (2024-03-29T12:32:06Z) - Decoding Demographic un-fairness from Indian Names [4.402336973466853]
デモグラフィック分類は、レコメンデーションシステムにおける公正度評価や、オンラインネットワークや投票システムにおける意図しない偏見の測定に不可欠である。
我々は3つの公開データセットを収集し、性別分類とキャスト分類の領域で最先端の分類器を訓練する。
上記のモデルの有効性を理解するために、クロステスト(異なるデータセットでのトレーニングとテスト)を実施します。
論文 参考訳(メタデータ) (2022-09-07T11:54:49Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。