論文の概要: PakBBQ: A Culturally Adapted Bias Benchmark for QA
- arxiv url: http://arxiv.org/abs/2508.10186v1
- Date: Wed, 13 Aug 2025 20:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.11511
- Title: PakBBQ: A Culturally Adapted Bias Benchmark for QA
- Title(参考訳): PakBBQ: 文化的に適応したバイアスベンチマーク
- Authors: Abdullah Hashmat, Muhammad Arham Mirza, Agha Ali Raza,
- Abstract要約: PakBBQは、文化的かつ地域的に適応した、質問回答データセットのオリジナルのバイアスベンチマークの拡張である。
PakBBQは、英語とウルドゥー語の両方の8つのカテゴリーにまたがる214以上のテンプレートと17180のQAペアで構成されており、年齢、障害、外観、性別、社会経済的地位、宗教、地域関係、言語形式を含む8つのバイアス次元をカバーしている。
- 参考スコア(独自算出の注目度): 3.9212167079822837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread adoption of Large Language Models (LLMs) across various applications, it is empirical to ensure their fairness across all user communities. However, most LLMs are trained and evaluated on Western centric data, with little attention paid to low-resource languages and regional contexts. To address this gap, we introduce PakBBQ, a culturally and regionally adapted extension of the original Bias Benchmark for Question Answering (BBQ) dataset. PakBBQ comprises over 214 templates, 17180 QA pairs across 8 categories in both English and Urdu, covering eight bias dimensions including age, disability, appearance, gender, socio-economic status, religious, regional affiliation, and language formality that are relevant in Pakistan. We evaluate multiple multilingual LLMs under both ambiguous and explicitly disambiguated contexts, as well as negative versus non negative question framings. Our experiments reveal (i) an average accuracy gain of 12\% with disambiguation, (ii) consistently stronger counter bias behaviors in Urdu than in English, and (iii) marked framing effects that reduce stereotypical responses when questions are posed negatively. These findings highlight the importance of contextualized benchmarks and simple prompt engineering strategies for bias mitigation in low resource settings.
- Abstract(参考訳): 様々なアプリケーションでLLM(Large Language Models)が広く採用されているため、すべてのユーザコミュニティで公平性を確保することは実証的です。
しかし、ほとんどのLLMは、低リソース言語や地域文脈にはほとんど注意を払わず、西洋中心のデータに基づいて訓練され、評価されている。
このギャップに対処するために、PakBBQを紹介します。これは、文化的かつ地域的に適応した、オリジナルのBias Benchmark for Question Answering (BBQ)データセットの拡張です。
PakBBQは、英語とウルドゥー語の両方の8つのカテゴリーにまたがる214以上のテンプレートと17180のQAペアで構成されており、年齢、障害、外観、性別、社会経済的地位、宗教、地域関係、言語形式を含む8つのバイアス次元をカバーしている。
両文脈の曖昧さと明瞭さの両面から複数の多言語LLMを評価するとともに,否定的・非否定的質問フレーミングについても検討した。
私たちの実験が明らかに
(i)曖昧さを伴う平均精度利得が12\%である。
(二)ウルドゥー語において英語より一貫して強固な反偏見行動
第三に、質問が否定的に提示されたときのステレオタイプ応答を減少させる顕著なフレーミング効果。
これらの知見は、低リソース環境下でのバイアス軽減のための文脈化ベンチマークと簡単なプロンプトエンジニアリング戦略の重要性を強調している。
関連論文リスト
- BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context [36.56689822791777]
Bias Benchmark for Question Answering (BBQ)のような既存のベンチマークは主に西洋の文脈に焦点を当てている。
BharatBBQは、ヒンディー語、英語、マラティー語、ベンガル語、タミル語、テルグ語、オディア語、アッサム語のバイアスを評価するために設計された、文化的に適応したベンチマークである。
我々のデータセットは1つの言語で49,108のサンプルを含み、翻訳と検証によって拡張され、8つの言語で392,864のサンプルとなる。
論文 参考訳(メタデータ) (2025-08-09T20:24:24Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs [6.781972039785424]
生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。
MBBQは、オランダ語、スペイン語、トルコ語でよく見られるステレオタイプを測定するデータセットである。
その結果、文化的な変化を抑えながら、英語以外の言語では、英語よりも偏見に悩まされていることが確認された。
論文 参考訳(メタデータ) (2024-06-11T13:23:14Z) - KoBBQ: Korean Bias Benchmark for Question Answering [28.091808407408823]
Bias Benchmark for Question Answering (BBQ)は、言語モデル(LM)の社会的バイアスを評価するように設計されている。
韓国のバイアスベンチマークデータセットであるKoBBQを紹介する。
本稿では,データセットの文化的適応を考慮に入れた一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-31T15:44:15Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。