論文の概要: GeniL: A Multilingual Dataset on Generalizing Language
- arxiv url: http://arxiv.org/abs/2404.05866v1
- Date: Mon, 8 Apr 2024 20:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 16:37:51.072101
- Title: GeniL: A Multilingual Dataset on Generalizing Language
- Title(参考訳): GeniL: 言語一般化のための多言語データセット
- Authors: Aida Mostafazadeh Davani, Sagar Gubbi, Sunipa Dev, Shachi Dave, Vinodkumar Prabhakaran,
- Abstract要約: 生成言語におけるステレオタイプの存在を評価するための現在の手法は、単純なテンプレートや共起に基づく尺度に依存している。
意味的文脈を理解することは一般化の事例を検出するために重要であると論じる。
我々は、一般化の例に注釈を付けた9言語から50K以上の文からなる多言語データセットGeniLを構築した。
- 参考スコア(独自算出の注目度): 19.43611224855484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly transforming our digital ecosystem, but they often inherit societal biases learned from their training data, for instance stereotypes associating certain attributes with specific identity groups. While whether and how these biases are mitigated may depend on the specific use cases, being able to effectively detect instances of stereotype perpetuation is a crucial first step. Current methods to assess presence of stereotypes in generated language rely on simple template or co-occurrence based measures, without accounting for the variety of sentential contexts they manifest in. We argue that understanding the sentential context is crucial for detecting instances of generalization. We distinguish two types of generalizations: (1) language that merely mentions the presence of a generalization ("people think the French are very rude"), and (2) language that reinforces such a generalization ("as French they must be rude"), from non-generalizing context ("My French friends think I am rude"). For meaningful stereotype evaluations, we need to reliably distinguish such instances of generalizations. We introduce the new task of detecting generalization in language, and build GeniL, a multilingual dataset of over 50K sentences from 9 languages (English, Arabic, Bengali, Spanish, French, Hindi, Indonesian, Malay, and Portuguese) annotated for instances of generalizations. We demonstrate that the likelihood of a co-occurrence being an instance of generalization is usually low, and varies across different languages, identity groups, and attributes. We build classifiers to detect generalization in language with an overall PR-AUC of 58.7, with varying degrees of performance across languages. Our research provides data and tools to enable a nuanced understanding of stereotype perpetuation, a crucial step towards more inclusive and responsible language technologies.
- Abstract(参考訳): LLMは私たちのデジタルエコシステムを変えつつあるが、トレーニングデータから学んだ社会的バイアス、例えば特定の属性と特定のアイデンティティグループを関連付けるステレオタイプを継承することが多い。
これらのバイアスを緩和する方法は、特定のユースケースに依存するかもしれないが、ステレオタイプの永続性のインスタンスを効果的に検出できることは、重要な第一歩である。
生成言語におけるステレオタイプの存在を評価するための現在の手法は、それらが示すさまざまなセンセーショナルコンテキストを考慮せずに、単純なテンプレートや共起に基づく尺度に依存している。
意味的文脈を理解することは一般化の事例を検出するために重要であると論じる。
1) 一般化の存在を単に言及する言語(フランス語は非常に無作法であると考える人々)と(2) 一般化を補強する言語(フランス語では無作法でなければならない)とを、非一般化的な文脈から区別する("My French friends think I are rude")。
意味のあるステレオタイプ評価には、そのような一般化の例を確実に区別する必要がある。
我々は、言語の一般化を検出するための新しいタスクを導入し、一般化の例に注釈を付けた9言語(英語、アラビア語、ベンガル語、スペイン語、フランス語、ヒンディー語、インドネシア語、マレー語、ポルトガル語)から50K以上の文からなる多言語データセットGeniLを構築した。
一般化の例である共起の可能性は通常低く、異なる言語、アイデンティティ群、属性によって異なることを示す。
言語全体のPR-AUCは58.7で、言語間の性能は様々である。
我々の研究は、より包括的で責任ある言語技術への重要なステップである、ステレオタイプパーペチュエーションのニュアンスな理解を可能にするデータとツールを提供する。
関連論文リスト
- Towards Generalized Offensive Language Identification [13.261770797304777]
本稿では,新たな一般化ベンチマークを用いて,攻撃的言語検出モデルとデータセットの一般化可能性を実証的に評価する。
我々の発見は、堅牢な実世界の攻撃的言語検出システムの構築に有用である。
論文 参考訳(メタデータ) (2024-07-26T13:50:22Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Quantifying Stereotypes in Language [6.697298321551588]
データセットをアノテートすることで,言語におけるステレオタイプを定量化する。
我々は、プレトレーニング言語モデル(PLM)を用いて、このデータセットを学習し、文のステレオタイプを予測する。
我々は、ヘイトスピーチ、性差別、感情、不利で有利なグループなど、一般的な社会問題に関するステレオタイプについて議論する。
論文 参考訳(メタデータ) (2024-01-28T01:07:21Z) - Are Structural Concepts Universal in Transformer Language Models?
Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。
言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。
本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:50:51Z) - On Evaluating Multilingual Compositional Generalization with Translated
Datasets [34.51457321680049]
構成一般化能力は言語によって異なることを示す。
我々は、MCWQデータセットを英語から中国語、日本語に忠実に翻訳する。
MCWQ-Rとよばれるロバストなベンチマークが得られたとしても、構成の分布は言語的な相違によって依然として苦しんでいることが示される。
論文 参考訳(メタデータ) (2023-06-20T10:03:57Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Penguins Don't Fly: Reasoning about Generics through Instantiations and
Exceptions [73.56753518339247]
本稿では, 言語理論から先例を生成するための新しい枠組みを提案する。
我々は650のジェネリックに対して19kの例を作成し、我々のフレームワークは12.8の精度で強力なGPT-3ベースラインを上回ります。
論文 参考訳(メタデータ) (2022-05-23T22:45:53Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Lower Perplexity is Not Always Human-Like [25.187238589433385]
我々は、確立された一般化 -- 言語モデルが持つ低い難易度、言語モデルがより人間らしくなる -- を再検討する。
我々の実験は、この確立された一般化が驚くほど普遍性の欠如を示すことを示した。
この結果から,人型計算モデルの構築には言語間評価が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-06-02T15:27:29Z) - A Benchmark for Systematic Generalization in Grounded Language
Understanding [61.432407738682635]
人間は慣れ親しんだ部分から成り立つ不慣れな状況を記述する表現を容易に解釈する。
対照的に、現代のニューラルネットワークは、新しい構成を理解するのに苦労している。
位置言語理解における合成一般化を評価するための新しいベンチマークであるgSCANを導入する。
論文 参考訳(メタデータ) (2020-03-11T08:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。