論文の概要: Social Bias in Popular Question-Answering Benchmarks
- arxiv url: http://arxiv.org/abs/2505.15553v1
- Date: Wed, 21 May 2025 14:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.685088
- Title: Social Bias in Popular Question-Answering Benchmarks
- Title(参考訳): 質問応答ベンチマークにおけるソーシャルバイアス
- Authors: Angelie Kraft, Judith Simon, Sonja Schimmler,
- Abstract要約: 質問応答(QA)と読解理解(RC)ベンチマークは,知識の検索と再生において,大規模言語モデル(LLM)の能力を評価する上で不可欠である。
一般的なQAおよびRCベンチマークは偏りがあり、代表的な方法で異なる人口層や地域に関する質問をカバーしていないことを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question-answering (QA) and reading comprehension (RC) benchmarks are essential for assessing the capabilities of large language models (LLMs) in retrieving and reproducing knowledge. However, we demonstrate that popular QA and RC benchmarks are biased and do not cover questions about different demographics or regions in a representative way, potentially due to a lack of diversity of those involved in their creation. We perform a qualitative content analysis of 30 benchmark papers and a quantitative analysis of 20 respective benchmark datasets to learn (1) who is involved in the benchmark creation, (2) how social bias is addressed or prevented, and (3) whether the demographics of the creators and annotators correspond to particular biases in the content. Most analyzed benchmark papers provided insufficient information regarding the stakeholders involved in benchmark creation, particularly the annotators. Notably, just one of the benchmark papers explicitly reported measures taken to address social representation issues. Moreover, the data analysis revealed gender, religion, and geographic biases across a wide range of encyclopedic, commonsense, and scholarly benchmarks. More transparent and bias-aware QA and RC benchmark creation practices are needed to facilitate better scrutiny and incentivize the development of fairer LLMs.
- Abstract(参考訳): 質問応答(QA)と読解理解(RC)ベンチマークは,知識の検索と再生において,大規模言語モデル(LLM)の能力を評価する上で不可欠である。
しかし、一般的なQAとRCのベンチマークは偏りがあり、様々な人口層や地域に関する質問を代表的にカバーしていないことを実証する。
筆者らは,30のベンチマーク論文の質的内容分析と20のベンチマークデータセットの定量的分析を行い,(1)ベンチマーク作成に関与している人,(2)社会的バイアスの対処・防止方法,(3)作成者と注釈者の人口層がコンテンツ内の特定のバイアスに対応するか否かを学習する。
ほとんどの分析されたベンチマーク論文は、ベンチマーク作成に関わるステークホルダー、特にアノテーションに関する不十分な情報を提供した。
特に、社会表現問題に対処するための措置を明示的に報告したベンチマーク論文の1つに過ぎなかった。
さらに、データ分析により、幅広い百科事典、常識、学術ベンチマークの性別、宗教、地理的偏見が明らかになった。
より透明でバイアスに敏感なQAとRCベンチマーク作成プラクティスは、より精査し、より公平なLCMの開発を促進するために必要である。
関連論文リスト
- More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - A Survey of Parameters Associated with the Quality of Benchmarks in NLP [24.6240575061124]
最近の研究では、モデルがいくつかの人気のあるベンチマークに対して、望ましいタスクを本当に学習することなく、刺激的なバイアスに過度に適合していることが示されている。
これらの問題に対する潜在的な解決策 - 量的定量化品質 - は、まだ未検討のままである。
ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。
論文 参考訳(メタデータ) (2022-10-14T06:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。