論文の概要: ImplicitBBQ: Benchmarking Implicit Bias in Large Language Models through Characteristic Based Cues
- arxiv url: http://arxiv.org/abs/2604.01925v1
- Date: Thu, 02 Apr 2026 11:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.714355
- Title: ImplicitBBQ: Benchmarking Implicit Bias in Large Language Models through Characteristic Based Cues
- Title(参考訳): ImplicitBBQ:特徴に基づくキューによる大規模言語モデルにおける暗黙のバイアスのベンチマーク
- Authors: Bhaskara Hanuma Vedula, Darshan Anghan, Ishita Goyal, Ponnurangam Kumaraguru, Abhijnan Chakraborty,
- Abstract要約: あいまいな文脈における暗示バイアスは、オープンウェイトモデルにおける明示バイアスより6倍以上高い。
暗黙の偏見を84%減少させる数発のプロンプトでさえ、他の次元の4倍の偏見を残している。
モデルプロバイダと研究者のためのコードとデータセットをリリースし、潜在的な緩和テクニックをベンチマークします。
- 参考スコア(独自算出の注目度): 8.68634179512072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models increasingly suppress biased outputs when demographic identity is stated explicitly, yet may still exhibit implicit biases when identity is conveyed indirectly. Existing benchmarks use name based proxies to detect implicit biases, which carry weak associations with many social demographics and cannot extend to dimensions like age or socioeconomic status. We introduce ImplicitBBQ, a QA benchmark that evaluates implicit bias through characteristic based cues, culturally associated attributes that signal implicitly, across age, gender, region, religion, caste, and socioeconomic status. Evaluating 11 models, we find that implicit bias in ambiguous contexts is over six times higher than explicit bias in open weight models. Safety prompting and chain-of-thought reasoning fail to substantially close this gap; even few-shot prompting, which reduces implicit bias by 84%, leaves caste bias at four times the level of any other dimension. These findings indicate that current alignment and prompting strategies address the surface of bias evaluation while leaving culturally grounded stereotypic associations largely unresolved. We publicly release our code and dataset for model providers and researchers to benchmark potential mitigation techniques.
- Abstract(参考訳): 大規模な言語モデルは、人口統計学的アイデンティティが明示的に記述されたときにバイアス付き出力をますます抑制するが、アイデンティティが間接的に伝達されたときにも、暗黙のバイアスを示す可能性がある。
既存のベンチマークでは、名前に基づくプロキシを使用して暗黙の偏見を検出する。
特徴に基づく手がかり, 年齢, 性別, 地域, 宗教, キャスト, 社会経済的地位を暗黙的に示す文化的属性を通じて, 暗黙的バイアスを評価するQAベンチマークであるImplicitBBQを紹介する。
11モデルを評価すると、あいまいな文脈における暗黙のバイアスは、オープンウェイトモデルにおける明示的なバイアスより6倍以上高いことが分かる。
安全促進と連鎖推論は、このギャップを著しく埋めることに失敗し、暗黙のバイアスを84%減少させる数発のプロンプトでさえ、他の次元の4倍のバイアスを放つ。
これらの結果から,現状のアライメントと促進策は,文化的根拠を持つステレオタイプ関連をほとんど未解決のまま残しながら,バイアス評価の表面に対処していることが明らかとなった。
モデルプロバイダと研究者のためのコードとデータセットを公開して、潜在的な緩和テクニックをベンチマークします。
関連論文リスト
- Breaking the Benchmark: Revealing LLM Bias via Minimal Contextual Augmentation [12.56588481992456]
大規模言語モデルは、その表現と振舞いにステレオタイプ的バイアスを示すことが示されている。
3つのプラグ・アンド・プレイステップを含む,新規で汎用的な拡張フレームワークを提案する。
大規模言語モデルは入力の摂動に影響を受けやすいことが分かり、ステレオタイプに振る舞う可能性が高くなる。
論文 参考訳(メタデータ) (2025-10-27T23:05:12Z) - What's Not Said Still Hurts: A Description-Based Evaluation Framework for Measuring Social Bias in LLMs [8.219247185418821]
大規模言語モデル(LLM)は、しばしばトレーニングデータから受け継がれた社会的バイアスを示す。
本稿では、意味レベルでバイアスを評価するために設計された新しいデータセットであるDescription-based Bias Benchmark(DBB)を紹介する。
我々は6つの最先端LCMを分析し、モデルが項レベルでの応答バイアスを減少させる一方で、微妙な設定でバイアスを補強し続けていることを明らかにした。
論文 参考訳(メタデータ) (2025-02-27T04:25:54Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。