論文の概要: SeeGULL Multilingual: a Dataset of Geo-Culturally Situated Stereotypes
- arxiv url: http://arxiv.org/abs/2403.05696v1
- Date: Fri, 8 Mar 2024 22:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:53:09.582304
- Title: SeeGULL Multilingual: a Dataset of Geo-Culturally Situated Stereotypes
- Title(参考訳): SeeGULL Multilingual: 地理的に指定されたステレオタイプのデータセット
- Authors: Mukul Bhutani, Kevin Robinson, Vinodkumar Prabhakaran, Shachi Dave,
Sunipa Dev
- Abstract要約: SeeGULLは、20の言語にまたがって、23のリージョンにわたる人間のアノテーションを備えた、グローバルにスケールした、ソーシャルステレオタイプの多言語データセットである。
- 参考スコア(独自算出の注目度): 18.991295993710224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While generative multilingual models are rapidly being deployed, their safety
and fairness evaluations are largely limited to resources collected in English.
This is especially problematic for evaluations targeting inherently
socio-cultural phenomena such as stereotyping, where it is important to build
multi-lingual resources that reflect the stereotypes prevalent in respective
language communities. However, gathering these resources, at scale, in varied
languages and regions pose a significant challenge as it requires broad
socio-cultural knowledge and can also be prohibitively expensive. To overcome
this critical gap, we employ a recently introduced approach that couples LLM
generations for scale with culturally situated validations for reliability, and
build SeeGULL Multilingual, a global-scale multilingual dataset of social
stereotypes, containing over 25K stereotypes, spanning 20 languages, with human
annotations across 23 regions, and demonstrate its utility in identifying gaps
in model evaluations. Content warning: Stereotypes shared in this paper can be
offensive.
- Abstract(参考訳): 生成多言語モデルは急速に展開されているが、その安全性と公平性の評価は英語で収集された資源に限られている。
これは、ステレオタイピングのような本質的に社会文化的現象を対象とする評価において特に問題であり、各言語コミュニティで広く見られるステレオタイプを反映した多言語資源を構築することが重要である。
しかし、これらの資源を大規模に集めることは、幅広い社会文化的知識を必要とするため、様々な言語や地域において大きな課題となる。
この批判的なギャップを克服するため,我々は最近導入した手法を用いて,llm世代を信頼性のために文化的に位置付けられた検証と結合させ,25k以上のステレオタイプを含むグローバル規模の多言語多言語データセットであるseegull multilingualを構築した。
コンテンツ警告: この論文で共有されているステレオタイプは攻撃的です。
関連論文リスト
- Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
異なる多言語性を持つ7種類の人的価値、16の言語、3のLLM系列を探索する。
これらの概念の言語間分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
LLMの事前学習のための多言語データの合成について提案する。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - Multilingual large language models leak human stereotypes across language boundaries [25.903732543380528]
我々は、英語、ロシア語、中国語、ヒンディー語という4つの言語にまたがるステレオタイプ的関連について検討する。
ヒンディー語は他の言語の影響を受けやすいが、中国語は最小である。
論文 参考訳(メタデータ) (2023-12-12T10:24:17Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Building Socio-culturally Inclusive Stereotype Resources with Community
Engagement [9.131536842607069]
インド社会の文脈における評価資源の社会的に意識した拡大、特にステレオタイピングの害について示す。
結果として得られた資源は、インドの文脈で知られているステレオタイプの数を増やし、多くのユニークなアイデンティティにわたって1000以上のステレオタイプを拡大する。
論文 参考訳(メタデータ) (2023-07-20T01:26:34Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Fairness in Language Models Beyond English: Gaps and Challenges [11.62418844341466]
本稿では,多言語・非英語の文脈における公平性について調査する。
これは、現在の研究の欠点と、英語向けに設計された手法が直面する困難を強調している。
論文 参考訳(メタデータ) (2023-02-24T11:25:50Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。