論文の概要: A Unified Framework and Dataset for Assessing Gender Bias in
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.13636v1
- Date: Wed, 21 Feb 2024 09:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:06:26.313725
- Title: A Unified Framework and Dataset for Assessing Gender Bias in
Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるジェンダーバイアス評価のための統一フレームワークとデータセット
- Authors: Ashutosh Sathe, Prachi Jain, Sunayana Sitaram
- Abstract要約: 我々は、大きな視覚言語モデル(VLM)におけるジェンダー・プロの偏見を評価する統一的な枠組みを構築している。
テキストと画像の合成、高品質なデータセットを構築し、プロの行動にまたがる性別の区別を曖昧にし、性別バイアスをベンチマークする。
- 参考スコア(独自算出の注目度): 10.144272784552273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) are widely getting adopted in industry
and academia. In this work we build a unified framework to systematically
evaluate gender-profession bias in VLMs. Our evaluation encompasses all
supported inference modes of the recent VLMs, including image-to-text,
text-to-text, text-to-image, and image-to-image. We construct a synthetic,
high-quality dataset of text and images that blurs gender distinctions across
professional actions to benchmark gender bias. In our benchmarking of recent
vision-language models (VLMs), we observe that different input-output
modalities result in distinct bias magnitudes and directions. We hope our work
will help guide future progress in improving VLMs to learn socially unbiased
representations. We will release our data and code.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、産業やアカデミックで広く採用されている。
本研究では,VLMにおけるジェンダー・プロフェッションバイアスを体系的に評価する統一的な枠組みを構築する。
画像からテキストへの推論,テキストから画像への推論,画像から画像への推論など,最新のvlmでサポートされているすべての推論モードを包含する。
テキストと画像の合成、高品質なデータセットを構築し、プロの行動間で性別の区別を曖昧にし、性別バイアスをベンチマークする。
近年の視覚言語モデル (VLM) のベンチマークでは、異なる入力出力モードが異なるバイアスの大きさと方向をもたらすことが観察された。
私たちの仕事は、VLMの改善における今後の進歩を、社会的に偏見のない表現を学ぶのに役立つことを願っています。
データとコードをリリースします。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models [3.018378575149671]
視覚言語モデル (VLM) は, 期待される性別の個人を行動のパフォーマーとして識別する傾向を示す。
画像やテキスト中の実際のパフォーマーの性別に関連づける際のこのバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼ぶ。
以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。
論文 参考訳(メタデータ) (2024-07-30T17:46:06Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals [8.41410889524315]
大規模視覚言語モデル(LVLM)によるテキストに含まれる社会的バイアスについて検討する。
異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提案する。
我々は,この逆ファクト・ジェネレーション・セッティングに基づいて,様々なモデルが生成したテキストを大規模に評価し,一般的なLVLMから5700万以上の応答を生成する。
論文 参考訳(メタデータ) (2024-05-30T15:27:56Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。