論文の概要: DemoBias: An Empirical Study to Trace Demographic Biases in Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2508.19298v1
- Date: Mon, 25 Aug 2025 18:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.358645
- Title: DemoBias: An Empirical Study to Trace Demographic Biases in Vision Foundation Models
- Title(参考訳): DemoBias:ビジョンファウンデーションモデルにおけるデモグラフィックバイアスの追跡に関する実証的研究
- Authors: Abu Sufian, Anirudha Ghosh, Debaditya Barman, Marco Leo, Cosimo Distante,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、生体認証(FR)や記述を含む様々な下流タスクにおいて顕著な機能を示した。
テキストトークン生成タスクを用いた生体計測 FR における LVLM における人口統計学的バイアスの程度を実験的に検討する。
- 参考スコア(独自算出の注目度): 5.024921806058944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities across various downstream tasks, including biometric face recognition (FR) with description. However, demographic biases remain a critical concern in FR, as these foundation models often fail to perform equitably across diverse demographic groups, considering ethnicity/race, gender, and age. Therefore, through our work DemoBias, we conduct an empirical evaluation to investigate the extent of demographic biases in LVLMs for biometric FR with textual token generation tasks. We fine-tuned and evaluated three widely used pre-trained LVLMs: LLaVA, BLIP-2, and PaliGemma on our own generated demographic-balanced dataset. We utilize several evaluation metrics, like group-specific BERTScores and the Fairness Discrepancy Rate, to quantify and trace the performance disparities. The experimental results deliver compelling insights into the fairness and reliability of LVLMs across diverse demographic groups. Our empirical study uncovered demographic biases in LVLMs, with PaliGemma and LLaVA exhibiting higher disparities for Hispanic/Latino, Caucasian, and South Asian groups, whereas BLIP-2 demonstrated comparably consistent. Repository: https://github.com/Sufianlab/DemoBias.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、生体認証(FR)や記述を含む様々な下流タスクにおいて顕著な機能を示した。
しかしながら、これらの基盤モデルは、民族、人種、性別、年齢など、多様な人口集団で等しく機能しないことが多いため、人口統計バイアスはFRにおいて重要な関心事である。
そこで,本研究ではDemoBiasを用いて,テキストトークン生成タスクを用いた生体計測FRにおけるLVLMの人口統計バイアスの程度を実証評価する。
LLaVA,BLIP-2,PaliGemmaの3種類のLVLMを作成した。
グループ固有のBERTScoreやFairness Discrepancy Rateなどの評価指標を用いて、性能格差を定量化し追跡する。
実験の結果は、多様な人口集団におけるLVLMの公平性と信頼性について、説得力のある洞察を与えてくれる。
LVLMでは,ParaGemmaとLLaVAはヒスパニック系・ラテン系・コーカサス系・南アジア系では高い差を示し,BLIP-2は相容れない傾向を示した。
Repository: https://github.com/Sufianlab/DemoBias.com
関連論文リスト
- Mitigating Group-Level Fairness Disparities in Federated Visual Language Models [115.16940773660104]
本稿では、FLと公正なプロンプトチューニング技術を組み合わせた新しいフレームワークであるFVL-FPを紹介する。
モデル性能を維持しながら、人口統計バイアスを軽減することに注力する。
本手法は,標準FL法に比べて平均45%の人口格差を減少させる。
論文 参考訳(メタデータ) (2025-05-03T16:09:52Z) - BiasICL: In-Context Learning and Demographic Biases of Vision Language Models [0.7499722271664147]
視覚言語モデル (VLM) は, 診断において有望であるが, テキスト内学習 (ICL) を用いた場合の集団間パフォーマンスはいまだによく分かっていない。
胸部X線写真からの皮膚病変の悪性度予測と気胸検出の2つの医療画像課題において, 実演例の人口構成がVLMパフォーマンスに与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-04T06:45:54Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Cross-Care: Assessing the Healthcare Implications of Pre-training Data on Language Model Bias [3.455189439319919]
大規模な言語モデル(LLM)におけるバイアスと実世界の知識を評価するための最初のベンチマークフレームワークであるCross-Careを紹介する。
ThePile$のような事前学習コーパスに埋め込まれた人口統計バイアスがLLMの出力にどのように影響するかを評価する。
以上の結果から, LLMの病状有病率と, 集団間での実際の病状有病率との相違が明らかとなった。
論文 参考訳(メタデータ) (2024-05-09T02:33:14Z) - Seeds of Stereotypes: A Large-Scale Textual Analysis of Race and Gender Associations with Diseases in Online Sources [1.8259644946867188]
本研究は、人種や性別の指標とともに様々な疾患が議論される状況を分析した。
その結果、人口統計学用語は、オンラインテキストの特定の疾患概念と不均等に関連していることがわかった。
我々は、特定の人種的・性別的用語と分析された18の疾患の関連において、幅広い相違を見出した。
論文 参考訳(メタデータ) (2024-05-08T13:38:56Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。