論文の概要: Discovering and Categorising Language Biases in Reddit
- arxiv url: http://arxiv.org/abs/2008.02754v2
- Date: Thu, 13 Aug 2020 18:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:26:14.868007
- Title: Discovering and Categorising Language Biases in Reddit
- Title(参考訳): Redditにおける言語バイアスの発見と分類
- Authors: Xavier Ferrer, Tom van Nuenen, Jose M. Such, Natalia Criado
- Abstract要約: 本稿では,Reddit上のオンライン談話コミュニティの語彙に符号化された言語バイアスを自動的に検出するデータ駆動型手法を提案する。
単語埋め込みを用いて、テキストを高次元の高密度ベクトルに変換し、単語間の意味的関係をキャプチャする。
さまざまなRedditコミュニティにおいて、ジェンダーバイアス、宗教バイアス、民族バイアスの発見に成功しました。
- 参考スコア(独自算出の注目度): 5.670038395203354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a data-driven approach using word embeddings to discover and
categorise language biases on the discussion platform Reddit. As spaces for
isolated user communities, platforms such as Reddit are increasingly connected
to issues of racism, sexism and other forms of discrimination. Hence, there is
a need to monitor the language of these groups. One of the most promising AI
approaches to trace linguistic biases in large textual datasets involves word
embeddings, which transform text into high-dimensional dense vectors and
capture semantic relations between words. Yet, previous studies require
predefined sets of potential biases to study, e.g., whether gender is more or
less associated with particular types of jobs. This makes these approaches
unfit to deal with smaller and community-centric datasets such as those on
Reddit, which contain smaller vocabularies and slang, as well as biases that
may be particular to that community. This paper proposes a data-driven approach
to automatically discover language biases encoded in the vocabulary of online
discourse communities on Reddit. In our approach, protected attributes are
connected to evaluative words found in the data, which are then categorised
through a semantic analysis system. We verify the effectiveness of our method
by comparing the biases we discover in the Google News dataset with those found
in previous literature. We then successfully discover gender bias, religion
bias, and ethnic bias in different Reddit communities. We conclude by
discussing potential application scenarios and limitations of this data-driven
bias discovery method.
- Abstract(参考訳): 議論プラットフォームRedditにおける言語バイアスの発見と分類にワード埋め込みを用いたデータ駆動型アプローチを提案する。
孤立したユーザーコミュニティのためのスペースとして、Redditのようなプラットフォームは、人種差別や性差別などの差別の問題にますます結びついている。
したがって、これらのグループの言語を監視する必要がある。
大規模テキストデータセットにおける言語バイアスを追跡する最も有望なaiアプローチの1つは、テキストを高次元の高密度ベクトルに変換し、単語間の意味関係をキャプチャする単語埋め込みである。
しかし、これまでの研究では、性別が特定の仕事と多かれ少なかれ関連しているかどうかなど、研究するための潜在的なバイアスのセットを事前に定義する必要がある。
これにより、これらのアプローチは、小さな語彙やスラングを含むredditにあるような、より小さくコミュニティ中心のデータセットや、コミュニティに特有なバイアスを扱うのに不適しています。
本稿では,reddit上のオンライン談話コミュニティの語彙にエンコードされた言語バイアスを自動的に検出するデータ駆動アプローチを提案する。
私たちのアプローチでは、保護された属性はデータに含まれる評価的単語と関連付けられ、セマンティック分析システムによって分類されます。
Google Newsデータセットのバイアスと過去の文献のバイアスを比較することで,本手法の有効性を検証する。
そして、さまざまなRedditコミュニティでジェンダーバイアス、宗教バイアス、民族バイアスを発見しました。
我々は、このデータ駆動バイアス発見手法の潜在的なアプリケーションシナリオと制限について論じる。
関連論文リスト
- Global Voices, Local Biases: Socio-Cultural Prejudices across Languages [22.92083941222383]
人間の偏見はユビキタスであるが、一様ではない。言語、文化、社会的境界を越えて格差が存在する。
本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にする。
より広く普及している社会的バイアスを包含するために、毒性、能力主義などにわたる新しいバイアス次元について検討する。
論文 参考訳(メタデータ) (2023-10-26T17:07:50Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Detecting Unintended Social Bias in Toxic Language Datasets [32.724030288421474]
本稿では,既存のKaggleコンペティションのデータセットであるJigsaw Unintended Bias in Toxicity Classificationから算出した新しいデータセットであるToxicBiasを紹介する。
データセットには、5つの異なるバイアスカテゴリ、viz.、性、人種/民族性、宗教、政治的、LGBTQに注釈付けされたインスタンスが含まれている。
得られたデータセットを用いてトランスフォーマーベースモデルをトレーニングし、バイアス識別、ターゲット生成、バイアス含意に関するベースライン性能を報告する。
論文 参考訳(メタデータ) (2022-10-21T06:50:12Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - WordBias: An Interactive Visual Tool for Discovering Intersectional
Biases Encoded in Word Embeddings [39.87681037622605]
本稿では,単語埋め込みに符号化された交叉群に対するバイアスを探索するインタラクティブビジュアルツールであるWordBiasを紹介する。
事前訓練された静的単語の埋め込みが与えられた場合、WordBiasは、人種、年齢などに基づいて、各単語の関連性を計算する。
論文 参考訳(メタデータ) (2021-03-05T11:04:35Z) - Discovering and Interpreting Biased Concepts in Online Communities [5.670038395203354]
言語は暗黙の人間のバイアスを持ち、反射とそれらを持ち歩くステレオタイプの永続の両方として機能する。
単語埋め込みのようなMLベースのNLP手法は、そのような言語バイアスを顕著な精度で学習することが示されている。
本稿では、単語埋め込みに符号化されたバイアス概念を自動的に検出し、解釈する従来のデータ駆動手法を改善し、拡張し、評価する。
論文 参考訳(メタデータ) (2020-10-27T17:07:12Z) - Towards Debiasing Sentence Representations [109.70181221796469]
Sent-Debiasはバイアスを取り除くのに有効であり、同時に文レベルの下流タスクのパフォーマンスを保っていることを示す。
我々は、より公平なNLPのための広く採用されている文表現から社会的偏見を識別・除去する今後の研究に刺激を与えることを期待している。
論文 参考訳(メタデータ) (2020-07-16T04:22:30Z) - Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation [94.98656228690233]
本稿では,性別サブスペースの推測と削除に先立って,コーパス正規性に対する単語埋め込みを浄化する手法を提案する。
本手法は,事前学習した単語埋め込みの分布的意味を保ちつつ,性別バイアスを従来の手法よりもはるかに大きい程度に低減する。
論文 参考訳(メタデータ) (2020-05-03T02:33:20Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。