論文の概要: A Comprehensive View of the Biases of Toxicity and Sentiment Analysis
Methods Towards Utterances with African American English Expressions
- arxiv url: http://arxiv.org/abs/2401.12720v1
- Date: Tue, 23 Jan 2024 12:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:43:06.650297
- Title: A Comprehensive View of the Biases of Toxicity and Sentiment Analysis
Methods Towards Utterances with African American English Expressions
- Title(参考訳): アフリカ系アメリカ人英語表現による発話に対する毒性バイアスと感情分析法の包括的見解
- Authors: Guilherme H. Resende, Luiz F. Nery, Fabr\'icio Benevenuto, Savvas
Zannettou, Flavio Figueiredo
- Abstract要約: ウェブベース(YouTubeとTwitter)の2つのデータセットと英語の2つのデータセットのバイアスについて検討した。
我々は,言語問合せおよびワードカウントソフトウェアから言語制御機能を介してAE表現の使用が与える影響を分離する。
また, AAE 表現の多用により, 話者の毒性が著しく向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.472714002128254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language is a dynamic aspect of our culture that changes when expressed in
different technologies/communities. Online social networks have enabled the
diffusion and evolution of different dialects, including African American
English (AAE). However, this increased usage is not without barriers. One
particular barrier is how sentiment (Vader, TextBlob, and Flair) and toxicity
(Google's Perspective and the open-source Detoxify) methods present biases
towards utterances with AAE expressions. Consider Google's Perspective to
understand bias. Here, an utterance such as ``All n*ggers deserve to die
respectfully. The police murder us.'' it reaches a higher toxicity than
``African-Americans deserve to die respectfully. The police murder us.''. This
score difference likely arises because the tool cannot understand the
re-appropriation of the term ``n*gger''. One explanation for this bias is that
AI models are trained on limited datasets, and using such a term in training
data is more likely to appear in a toxic utterance. While this may be
plausible, the tool will make mistakes regardless. Here, we study bias on two
Web-based (YouTube and Twitter) datasets and two spoken English datasets. Our
analysis shows how most models present biases towards AAE in most settings. We
isolate the impact of AAE expression usage via linguistic control features from
the Linguistic Inquiry and Word Count (LIWC) software, grammatical control
features extracted via Part-of-Speech (PoS) tagging from Natural Language
Processing (NLP) models, and the semantic of utterances by comparing sentence
embeddings from recent language models. We present consistent results on how a
heavy usage of AAE expressions may cause the speaker to be considered
substantially more toxic, even when speaking about nearly the same subject. Our
study complements similar analyses focusing on small datasets and/or one method
only.
- Abstract(参考訳): 言語は私たちの文化のダイナミックな側面であり、異なる技術やコミュニティで表現されると変わります。
オンラインソーシャルネットワークは、アフリカ系アメリカ人英語(aae)を含む様々な方言の拡散と進化を可能にした。
しかし、この増加は障壁がないわけではない。
特定の障壁の1つは、感情(Vader、TextBlob、Frair)と毒性(Googleのパースペクティブ、オープンソースのDetoxify)メソッドが、AE表現による発話に対するバイアスをいかに提示するかである。
バイアスを理解するためにgoogleの視点を考える。
ここで、『all n*ggers』のような発話は丁寧に死に値する。
警察は我々を殺害した
「アフリカ系アメリカ人が敬意を払って死ぬ価値がある」よりも高い毒性に達する。
警察は我々を殺害した
''.
このスコアの違いは、ツールが ``n*gger''' という用語の再適用を理解できないためである。
このバイアスの1つの説明は、AIモデルは限られたデータセットでトレーニングされており、トレーニングデータでそのような用語を使用すると、有害な発話に現れる可能性が高いということだ。
これは可能かもしれないが、ツールが何であれ間違いを犯すだろう。
本稿では,2つのWebベース(YouTubeとTwitter)データセットと2つの英語データセットのバイアスについて検討する。
我々の分析は、ほとんどのモデルがほとんどの設定でAAEに対するバイアスを示すことを示している。
我々は,言語質問・単語数(LIWC)ソフトウェアからの言語制御機能によるAE表現利用の影響,自然言語処理(NLP)モデルからのPart-of-Speech(PoS)タグ付けによる文法制御機能,および近年の言語モデルからの文埋め込みの比較による発話の意味を分離した。
我々は,aae表現の多用が話者に有毒であると考えられる原因について,同一主題について話す場合においても一貫した結果を示す。
本研究は,小さなデータセットと1つのメソッドのみに焦点を当てた類似の分析を補完する。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties [0.0]
私たちは、その根本にあるバイアス(データそのもの)の問題に対処することを目指しています。
英語の多言語話者の割合が低い国からのツイートのデータセットをキュレートする。
ベストプラクティスに従って、我々の成長するコーパスには7カ国から170,800のツイートが写っている。
論文 参考訳(メタデータ) (2024-01-21T13:18:20Z) - HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model
for online comments [2.162419921663162]
ソーシャルメディア投稿において,Hate Context Detection と Hate Intensity Reduction のための新しいエンドツーエンドモデル HCDIR を提案する。
我々は、ヘイトフルコメントを検出するために、いくつかの事前訓練された言語モデルを微調整し、最も優れたヘイトフルコメント検出モデルを確認した。
論文 参考訳(メタデータ) (2023-12-20T17:05:46Z) - "It's Not Just Hate'': A Multi-Dimensional Perspective on Detecting
Harmful Speech Online [26.10949184015077]
よりきめ細かなマルチラベルアプローチが、概念的およびパフォーマンス的な問題の両方に対処し、悪質でヘイトフルなコンテンツや不寛容なコンテンツを予測することを示します。
我々は、米国と英国からの移民に関する4万件以上のツイートからなる新しいデータセットを公開しました。
論文 参考訳(メタデータ) (2022-10-28T03:34:50Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Disambiguation of morpho-syntactic features of African American English
-- the case of habitual be [1.4699455652461728]
習慣的「be」は同型であり、したがってあいまいであり、他の形の「be」はAAEや他の英語の変種にも見られる。
我々はルールベースのフィルタとデータ拡張の組み合わせを用いて、習慣インスタンスと非生活インスタンスのバランスの取れたコーパスを生成する。
論文 参考訳(メタデータ) (2022-04-26T16:30:22Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文 参考訳(メタデータ) (2020-05-09T04:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。