論文の概要: HESEIA: A community-based dataset for evaluating social biases in large language models, co-designed in real school settings in Latin America
- arxiv url: http://arxiv.org/abs/2505.24712v1
- Date: Fri, 30 May 2025 15:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.038339
- Title: HESEIA: A community-based dataset for evaluating social biases in large language models, co-designed in real school settings in Latin America
- Title(参考訳): HESEIA: ラテンアメリカの実校で共同設計された大規模言語モデルにおける社会的バイアスを評価するコミュニティベースのデータセット
- Authors: Guido Ivetta, Marcos J. Gomez, Sofía Martinelli, Pietro Palombini, M. Emilia Echeveste, Nair Carolina Mazzeo, Beatriz Busaniche, Luciana Benotti,
- Abstract要約: HESEIAは専門的な開発コースで作成された46,499の文のデータセットである。
それは、生きた経験と教育者の教育的専門知識を通して、地域の文脈を反映している。
- 参考スコア(独自算出の注目度): 1.8770966198968835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most resources for evaluating social biases in Large Language Models are developed without co-design from the communities affected by these biases, and rarely involve participatory approaches. We introduce HESEIA, a dataset of 46,499 sentences created in a professional development course. The course involved 370 high-school teachers and 5,370 students from 189 Latin-American schools. Unlike existing benchmarks, HESEIA captures intersectional biases across multiple demographic axes and school subjects. It reflects local contexts through the lived experience and pedagogical expertise of educators. Teachers used minimal pairs to create sentences that express stereotypes relevant to their school subjects and communities. We show the dataset diversity in term of demographic axes represented and also in terms of the knowledge areas included. We demonstrate that the dataset contains more stereotypes unrecognized by current LLMs than previous datasets. HESEIA is available to support bias assessments grounded in educational communities.
- Abstract(参考訳): 大規模言語モデルにおける社会的偏見を評価するためのほとんどのリソースは、これらの偏見に影響されたコミュニティからの共同設計なしで開発され、参加的なアプローチはめったにない。
専門的な開発コースで作成した46,499文のデータセットであるHESEIAを紹介する。
このコースには370人の高校教師と189人のラテンアメリカの学校から5,370人の学生が含まれていた。
既存のベンチマークとは異なり、HESEIAは複数の人口動態軸と学校の被験者間の交差バイアスを捉えている。
それは、生きた経験と教育者の教育的専門知識を通して、地域の文脈を反映している。
教師は最小のペアを使って、学校の科目やコミュニティに関連するステレオタイプを表現する文章を作った。
人口統計学におけるデータセットの多様性を示すとともに,その内に含まれる知識領域についても示す。
このデータセットは、従来のデータセットよりも、現在のLCMで認識されていないステレオタイプを多く含んでいることを実証する。
HESEIAは、教育コミュニティに根ざしたバイアスアセスメントをサポートするために利用可能である。
関連論文リスト
- A Comprehensive Social Bias Audit of Contrastive Vision Language Models [14.632649933582648]
テキスト・ツー・イメージ・モデルにおける公平性を高める新しいフレームワークであるFairCoTを紹介する。
また,FairCoTは画像品質や意味的忠実さを犠牲にすることなく,公平性と多様性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-01-22T21:08:30Z) - BanStereoSet: A Dataset to Measure Stereotypical Social Biases in LLMs for Bangla [0.0]
本研究は,バングラ語用多言語LLMにおけるステレオタイプ的社会的バイアスを評価するためのデータセットであるBanStereoSetを提示する。
私たちのデータセットは、人種、職業、性別、年齢、職業の美しさ、地域、カースト、宗教の9つのカテゴリーにまたがる1,194の文で構成されています。
論文 参考訳(メタデータ) (2024-09-18T02:02:30Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。