論文の概要: Machines Do See Color: A Guideline to Classify Different Forms of Racist
Discourse in Large Corpora
- arxiv url: http://arxiv.org/abs/2401.09333v2
- Date: Sat, 20 Jan 2024 15:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:06:25.990063
- Title: Machines Do See Color: A Guideline to Classify Different Forms of Racist
Discourse in Large Corpora
- Title(参考訳): 機械は色を見る:大きなコーパスで異なる形の人種差別的言論を分類するためのガイドライン
- Authors: Diana Davila Gordillo, Joan Timoneda, Sebastian Vallejo Vera
- Abstract要約: テキストで人種差別的言語を識別し分類する現在の手法は、人種差別的言説の過度な形式にのみ焦点をあてる小さなnの質的アプローチや大規模nのアプローチに依存している。
本稿では、大規模コーパスにおける異なる形態の人種差別的言説を識別し分類するためのステップバイステップの一般化可能なガイドラインを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current methods to identify and classify racist language in text rely on
small-n qualitative approaches or large-n approaches focusing exclusively on
overt forms of racist discourse. This article provides a step-by-step
generalizable guideline to identify and classify different forms of racist
discourse in large corpora. In our approach, we start by conceptualizing racism
and its different manifestations. We then contextualize these racist
manifestations to the time and place of interest, which allows researchers to
identify their discursive form. Finally, we apply XLM-RoBERTa (XLM-R), a
cross-lingual model for supervised text classification with a cutting-edge
contextual understanding of text. We show that XLM-R and XLM-R-Racismo, our
pretrained model, outperform other state-of-the-art approaches in classifying
racism in large corpora. We illustrate our approach using a corpus of tweets
relating to the Ecuadorian ind\'igena community between 2018 and 2021.
- Abstract(参考訳): テキストで人種差別的言語を識別し分類する現在の手法は、人種差別的言説の過度な形式にのみ焦点をあてる小さなn質的アプローチや大規模nアプローチに依存している。
本稿では、大規模コーパスにおける異なる形態の人種差別的言説を識別し分類するためのステップバイステップの一般化可能なガイドラインを提供する。
このアプローチでは、人種差別とその異なる表現を概念化することから始めます。
次に、これらの人種差別的表現を時間と場所に文脈的に分類し、研究者がそれらの分散形式を識別できるようにする。
最後に,XLM-RoBERTa (XLM-R)を適用し,テキストの最先端文脈理解による教師付きテキスト分類モデルを提案する。
我々の事前学習モデルであるXLM-RとXLM-R-Racismoは、大規模なコーパスにおける人種差別の分類において、他の最先端のアプローチよりも優れていることを示す。
本稿は,2018年から2021年にかけてのエクアドル ind'igena コミュニティに関するツイートのコーパスを用いて,我々のアプローチを説明する。
関連論文リスト
- Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Dialect prejudice predicts AI decisions about people's character,
employability, and criminality [36.448157493217344]
言語モデルが方言偏見の形で隠蔽的人種差別を具現化することを示す。
我々の発見は、言語技術の公正かつ安全な利用に、はるかに影響している。
論文 参考訳(メタデータ) (2024-03-01T18:43:09Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models [33.157279170602784]
大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。
GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。
交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
論文 参考訳(メタデータ) (2023-05-29T16:29:22Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - Mitigating Racial Biases in Toxic Language Detection with an
Equity-Based Ensemble Framework [9.84413545378636]
最近の研究では、アフリカ系アメリカ人の英語を書いているユーザーに対する人種的偏見が、人気のある有毒な言語データセットに存在することが示されている。
これらのバイアスの発生源をよりよく理解するために、さらに説明的公正度指標を提案する。
提案手法は,モデルがこれらのデータセットから学習する人種的バイアスを大幅に低減することを示す。
論文 参考訳(メタデータ) (2021-09-27T15:54:05Z) - Whose Opinions Matter? Perspective-aware Models to Identify Opinions of
Hate Speech Victims in Abusive Language Detection [6.167830237917662]
異なるコミュニティから生まれる偏極的な意見をモデル化するための詳細な研究を提示する。
この情報に頼ることで、アノテータを同様の視点を共有するグループに分割できると考えています。
本稿では,オンライン虐待を特徴付けるためのサブカテゴリによって注釈付けされた,新しいリソース,多視点英語データセットを提案する。
論文 参考訳(メタデータ) (2021-06-30T08:35:49Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Examining Racial Bias in an Online Abuse Corpus with Structural Topic
Modeling [0.30458514384586405]
我々は、ソーシャルメディア投稿における人種的偏見を調べるために、構造的トピックモデリングを用いる。
我々は、アフリカ系アメリカ人の英語で書かれたツイートの予測確率を示す追加機能を追加することにより、乱用言語データセットを増強する。
論文 参考訳(メタデータ) (2020-05-26T21:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。