論文の概要: "The Dentist is an involved parent, the bartender is not": Revealing Implicit Biases in QA with Implicit BBQ
- arxiv url: http://arxiv.org/abs/2512.06732v1
- Date: Sun, 07 Dec 2025 08:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.49514
- Title: "The Dentist is an involved parent, the bartender is not": Revealing Implicit Biases in QA with Implicit BBQ
- Title(参考訳): 「歯科医は関係する親であり、バーテンダーはそうではない」:Implicit BBQを用いたQAにおけるImplicit Biasesの発見
- Authors: Aarushi Wagh, Saniya Srivastava,
- Abstract要約: ImplicitBBQは、Bias Benchmark for QA (BBQ)を拡張したベンチマークである。
ImplicitBBQ における GPT-4o の評価は,明示的な BBQ プロンプトとの不一致を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks evaluating biases in large language models (LLMs) primarily rely on explicit cues, declaring protected attributes like religion, race, gender by name. However, real-world interactions often contain implicit biases, inferred subtly through names, cultural cues, or traits. This critical oversight creates a significant blind spot in fairness evaluation. We introduce ImplicitBBQ, a benchmark extending the Bias Benchmark for QA (BBQ) with implicitly cued protected attributes across 6 categories. Our evaluation of GPT-4o on ImplicitBBQ illustrates troubling performance disparity from explicit BBQ prompts, with accuracy declining up to 7% in the "sexual orientation" subcategory and consistent decline located across most other categories. This indicates that current LLMs contain implicit biases undetected by explicit benchmarks. ImplicitBBQ offers a crucial tool for nuanced fairness evaluation in NLP.
- Abstract(参考訳): 既存のベンチマークでは、大きな言語モデル(LLM)のバイアスを評価するのは主に明示的な手がかりに依存しており、宗教、人種、性別などの保護された属性を名前で宣言している。
しかし、現実世界の相互作用は、しばしば暗黙の偏見、名前、文化的な手がかり、または特性を通して微妙に推測される。
この批判的な監視は、公正性評価において重要な盲点を生み出します。
IndicitBBQは、6つのカテゴリで暗黙的に保護された属性を持つ、Bias Benchmark for QA(BBQ)を拡張したベンチマークである。
ImplicitBBQ における GPT-4o の評価では, BBQ の明示的なプロンプトと不一致がみられ, その精度は「性的指向」のサブカテゴリで7%まで低下し, その他のカテゴリでは一貫した低下がみられた。
これは、現在のLLMが明示的なベンチマークで検出されていない暗黙のバイアスを含んでいることを示している。
ImplicitBBQは、NLPにおけるニュアンスドフェアネス評価のための重要なツールである。
関連論文リスト
- Open-DeBias: Toward Mitigating Open-Set Bias in Language Models [6.958242323649994]
我々は,テキストベースの質問応答タスクにおいて,オープンセットバイアス検出と緩和という新たな課題に取り組む。
OpenBiasBenchは、様々なカテゴリやサブグループにまたがるバイアスを評価するために設計されたベンチマークである。
また,新しいデータ効率,パラメータ効率のデバイアス法であるOpen-DeBiasを提案する。
論文 参考訳(メタデータ) (2025-09-28T11:08:39Z) - Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation [116.86965910589775]
対象物の10%だけをマスクしたり、背景が弱くぼやけたりといった、最小限の摂動でさえ、バイアススコアを劇的に変える可能性がある。
これは、現在のバイアス評価がモデル応答を、性別バイアスよりも刺激的な特徴に反映していることを示唆している。
論文 参考訳(メタデータ) (2025-09-09T11:14:11Z) - PakBBQ: A Culturally Adapted Bias Benchmark for QA [3.4455728937232597]
PakBBQは、文化的かつ地域的に適応した、質問回答データセットのオリジナルのバイアスベンチマークの拡張である。
PakBBQは、英語とウルドゥー語の両方の8つのカテゴリーにまたがる214以上のテンプレートと17180のQAペアで構成されており、年齢、障害、外観、性別、社会経済的地位、宗教、地域関係、言語形式を含む8つのバイアス次元をカバーしている。
論文 参考訳(メタデータ) (2025-08-13T20:42:44Z) - Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。
即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。
本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文 参考訳(メタデータ) (2025-03-12T10:06:03Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - BBQ: A Hand-Built Bias Benchmark for Question Answering [25.108222728383236]
NLPモデルは、世界に存在する社会的バイアスを学習することは十分に文書化されているが、これらのバイアスが、質問応答(QA)のような適用されたタスクに対して、実際のモデルアウトプットにどのように現れるかを示す研究はほとんど行われていない。
筆者らによって構築された質問セットからなるデータセットであるBias Benchmark for QA (BBQ)を導入し、米国英語の文脈に関連する9つの異なる社会的次元に沿って、保護されたクラスに属する人々に対するテキストテストされた社会的偏見を強調した。
文脈が曖昧であるとき、モデルはステレオタイプに強く依存していることが分かり、つまり、モデルの出力は、この設定において有害なバイアスを一貫して再現する。
論文 参考訳(メタデータ) (2021-10-15T16:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。