論文の概要: SB-Bench: Stereotype Bias Benchmark for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2502.08779v2
- Date: Mon, 17 Feb 2025 20:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:01:56.629287
- Title: SB-Bench: Stereotype Bias Benchmark for Large Multimodal Models
- Title(参考訳): SB-Bench:大規模マルチモーダルモデルのためのステレオタイプバイアスベンチマーク
- Authors: Vishal Narnaware, Ashmal Vayani, Rohit Gupta, Sirnam Swetha, Mubarak Shah,
- Abstract要約: 大規模マルチモーダルモデル(LMM)におけるステレオ型バイアスは有害な社会的偏見を持続させる。
LMMにおけるステレオタイプバイアスを評価する既存のデータセットは、しばしば多様性に欠け、合成画像に依存している。
我々は、ステレオタイプバイアスを評価するための最も包括的なフレームワークであるStereotype Bias Benchmark(SB-bench)を紹介する。
- 参考スコア(独自算出の注目度): 42.54907891780377
- License:
- Abstract: Stereotype biases in Large Multimodal Models (LMMs) perpetuate harmful societal prejudices, undermining the fairness and equity of AI applications. As LMMs grow increasingly influential, addressing and mitigating inherent biases related to stereotypes, harmful generations, and ambiguous assumptions in real-world scenarios has become essential. However, existing datasets evaluating stereotype biases in LMMs often lack diversity and rely on synthetic images, leaving a gap in bias evaluation for real-world visual contexts. To address this, we introduce the Stereotype Bias Benchmark (SB-bench), the most comprehensive framework to date for assessing stereotype biases across nine diverse categories with non-synthetic images. SB-bench rigorously evaluates LMMs through carefully curated, visually grounded scenarios, challenging them to reason accurately about visual stereotypes. It offers a robust evaluation framework featuring real-world visual samples, image variations, and multiple-choice question formats. By introducing visually grounded queries that isolate visual biases from textual ones, SB-bench enables a precise and nuanced assessment of a model's reasoning capabilities across varying levels of difficulty. Through rigorous testing of state-of-the-art open-source and closed-source LMMs, SB-bench provides a systematic approach to assessing stereotype biases in LMMs across key social dimensions. This benchmark represents a significant step toward fostering fairness in AI systems and reducing harmful biases, laying the groundwork for more equitable and socially responsible LMMs. Our code and dataset are publicly available.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)におけるステレオ型バイアスは、有害な社会的偏見を永続させ、AIアプリケーションの公平性とエクイティを損なう。
LMMがますます影響力を増すにつれて、ステレオタイプ、有害世代、そして現実のシナリオにおける曖昧な仮定に関連する固有のバイアスに対処し緩和することが不可欠になっている。
しかし、LMMにおけるステレオタイプバイアスを評価する既存のデータセットは、しばしば多様性を欠き、合成画像に依存し、現実世界の視覚的コンテキストに対するバイアス評価のギャップを残している。
この問題に対処するため, ステレオタイプバイアスベンチマーク (SB-bench) を導入する。
SB-benchは、注意深くキュレートされ、視覚的に接地されたシナリオを通してLMMを厳格に評価し、視覚ステレオタイプについて正確に推論するよう挑戦する。
実世界のビジュアルサンプル、画像のバリエーション、複数選択の質問フォーマットを特徴とする堅牢な評価フレームワークを提供する。
SB-benchは、テキストから視覚バイアスを分離するビジュアルグラウンドドクエリを導入することで、さまざまな難易度でモデルの推論能力の正確でニュアンスな評価を可能にする。
最先端のオープンソースおよびクローズドソースLMMの厳密なテストを通じて、SB-benchは、主要な社会的次元にわたるLMMのステレオタイプバイアスを評価するための体系的なアプローチを提供する。
このベンチマークは、AIシステムの公平性を育み、有害なバイアスを減らすための重要なステップであり、より公平で社会的に責任のあるLMMの基盤となる。
コードとデータセットは公開されています。
関連論文リスト
- INFELM: In-depth Fairness Evaluation of Large Text-To-Image Models [8.340794604348632]
マルチモーダルAIシステムは、人間のような認知をエミュレートすることで、産業応用の可能性を秘めている。
また、有害な内容の増幅や社会的偏見の強化など、重大な倫理的課題も生じている。
本稿では,広く使用されているテキスト・ツー・イメージ・モデルにおける奥行きの公平性評価であるINFELMを提案する。
論文 参考訳(メタデータ) (2024-12-28T02:28:19Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings [13.686732204665738]
既存のBBQデータセットを,補間質問型と短解質問型を組み込むことで拡張する。
我々の発見によると、LSMは年齢や社会経済的地位など、特定の保護された属性に対してより偏りのある反応を生み出す。
偏見をゼロショット、少数ショット、チェーン・オブ・シントを組み合わせることで、偏見のレベルを約0。
論文 参考訳(メタデータ) (2024-12-09T01:29:47Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Constructing Holistic Measures for Social Biases in Masked Language
Models [17.45153670825904]
Masked Language Models (MLM)は多くの自然言語処理タスクで成功している。
現実世界のステレオタイプバイアスは、大きなテキストコーパスから学んだことから、インスパイアされる可能性が高い。
Kullback Leiblergence Score (KLDivS) とJensen Shannon Divergence Score (JSDivS) の2つの評価指標を提案し,社会バイアスの評価を行った。
論文 参考訳(メタデータ) (2023-05-12T23:09:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。