論文の概要: Adaptive Data Collection for Latin-American Community-sourced Evaluation of Stereotypes (LACES)
- arxiv url: http://arxiv.org/abs/2510.24958v1
- Date: Tue, 28 Oct 2025 20:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.785807
- Title: Adaptive Data Collection for Latin-American Community-sourced Evaluation of Stereotypes (LACES)
- Title(参考訳): ラテンアメリカコミュニティソースによるステレオタイプ評価のための適応データ収集(LACES)
- Authors: Guido Ivetta, Pietro Palombini, Sofía Martinelli, Marcos J Gomez, Sunipa Dev, Vinodkumar Prabhakaran, Luciana Benotti,
- Abstract要約: NLPモデルにおける社会的バイアスの評価は、地理的・文化的ギャップによって著しく妨げられている。
既存のベンチマークは圧倒的に英語中心であり、アメリカの人口統計に焦点を当てている。
我々は,ラテンアメリカにおけるコミュニティパートナーシップを通じて開発された,新しい大規模ステレオタイプデータセットを紹介する。
- 参考スコア(独自算出の注目度): 12.636379779655558
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The evaluation of societal biases in NLP models is critically hindered by a glaring geo-cultural gap, as existing benchmarks are overwhelmingly English-centric and focused on U.S. demographics. This leaves regions such as Latin America severely underserved, making it impossible to adequately assess or mitigate the perpetuation of harmful regional stereotypes by language technologies. To address this gap, we introduce a new, large-scale dataset of stereotypes developed through targeted community partnerships within Latin America. Furthermore, we present a novel dynamic data collection methodology that uniquely integrates the sourcing of new stereotype entries and the validation of existing data within a single, unified workflow. This combined approach results in a resource with significantly broader coverage and higher regional nuance than static collection methods. We believe that this new method could be applicable in gathering sociocultural knowledge of other kinds, and that this dataset provides a crucial new resource enabling robust stereotype evaluation and significantly addressing the geo-cultural deficit in fairness resources for Latin America.
- Abstract(参考訳): NLPモデルにおける社会的偏見の評価は、既存のベンチマークが圧倒的に英語中心であり、アメリカの人口統計に焦点を絞っているため、地理的文化的なギャップによって著しく妨げられている。
このことは、ラテンアメリカのような地域は厳しい保護を受けており、言語技術によって有害な地域ステレオタイプを適切に評価または緩和することは不可能である。
このギャップに対処するため,ラテンアメリカにおけるコミュニティパートナーシップを通じて開発された,大規模で大規模なステレオタイプデータセットを導入する。
さらに、新しいステレオタイプエントリのソーシングと既存のデータの検証を単一の統合ワークフロー内で一意に統合する、新しい動的データ収集手法を提案する。
この組み合わせのアプローチにより、静的コレクション法よりもはるかに広範なカバレッジと地域ニュアンスを持つリソースが得られる。
我々は,この新たな手法が,他の種類の社会文化的知識の収集に適用可能であると信じており,このデータセットはロバストなステレオタイプ評価を可能にし,ラテンアメリカにおけるフェアネス資源の地理的文化的欠陥に顕著に対処する上で,重要な新しい資源を提供すると考えている。
関連論文リスト
- SESGO: Spanish Evaluation of Stereotypical Generative Outputs [1.1549572298362782]
本稿では,多言語大言語モデル(LLM)におけるバイアス評価における限界ギャップについて論じる。
現在の評価は、主に米国英語中心であり、他の言語や文化の文脈で潜在的に危害が及ばないままである。
教科学習における社会的偏見を検出するための,新しい文化的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-03T14:04:51Z) - No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models [38.932610459192105]
コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究
我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-05-22T16:04:22Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - SeeGULL Multilingual: a Dataset of Geo-Culturally Situated Stereotypes [18.991295993710224]
SeeGULLは、20の言語にまたがって、23のリージョンにわたる人間のアノテーションを備えた、グローバルにスケールした、ソーシャルステレオタイプの多言語データセットである。
論文 参考訳(メタデータ) (2024-03-08T22:09:58Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。