論文の概要: The "Colonial Impulse" of Natural Language Processing: An Audit of
Bengali Sentiment Analysis Tools and Their Identity-based Biases
- arxiv url: http://arxiv.org/abs/2401.10535v1
- Date: Fri, 19 Jan 2024 07:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:29:48.176678
- Title: The "Colonial Impulse" of Natural Language Processing: An Audit of
Bengali Sentiment Analysis Tools and Their Identity-based Biases
- Title(参考訳): 自然言語処理の「植民地的衝動」--ベンガル感情分析ツールとそのアイデンティティに基づくバイアスの監査
- Authors: Dipto Das and Shion Guha and Jed Brubaker and Bryan Semaan
- Abstract要約: 我々は、Pythonパッケージインデックス(PyPI)とGitHubで利用可能なBengaliのすべての感情分析ツールのアルゴリズムによる監査を行う。
類似したセマンティック内容と構造にもかかわらず,ベンガルの感情分析ツールは,異なるアイデンティティカテゴリ間の偏りを示し,異なるアイデンティティ表現の方法に異なる反応を示すことを示した。
- 参考スコア(独自算出の注目度): 10.29144011101804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While colonization has sociohistorically impacted people's identities across
various dimensions, those colonial values and biases continue to be perpetuated
by sociotechnical systems. One category of sociotechnical systems--sentiment
analysis tools--can also perpetuate colonial values and bias, yet less
attention has been paid to how such tools may be complicit in perpetuating
coloniality, although they are often used to guide various practices (e.g.,
content moderation). In this paper, we explore potential bias in sentiment
analysis tools in the context of Bengali communities that have experienced and
continue to experience the impacts of colonialism. Drawing on identity
categories most impacted by colonialism amongst local Bengali communities, we
focused our analytic attention on gender, religion, and nationality. We
conducted an algorithmic audit of all sentiment analysis tools for Bengali,
available on the Python package index (PyPI) and GitHub. Despite similar
semantic content and structure, our analyses showed that in addition to
inconsistencies in output from different tools, Bengali sentiment analysis
tools exhibit bias between different identity categories and respond
differently to different ways of identity expression. Connecting our findings
with colonially shaped sociocultural structures of Bengali communities, we
discuss the implications of downstream bias of sentiment analysis tools.
- Abstract(参考訳): 植民地化は、様々な次元の人々のアイデンティティに社会史的に影響を及ぼしてきたが、これらの植民地の価値観とバイアスは、社会学的システムによって持続され続けている。
社会学的な体系の1つのカテゴリーである感覚分析ツール(sentiment analysis tools)は、植民地の価値観とバイアスを持続することができるが、そのようなツールが植民地の存続にどのように寄与するかにはあまり注意が払われていない。
本稿では,植民地主義の影響を経験し継続してきたベンガル人コミュニティの文脈における感情分析ツールの潜在的なバイアスについて考察する。
ベンガル人コミュニティにおける植民地主義の影響が最も大きいアイデンティティカテゴリーについて考察し,性別,宗教,国籍について分析的に考察した。
我々は、Pythonパッケージインデックス(PyPI)とGitHubで利用可能なBengaliのすべての感情分析ツールのアルゴリズムによる監査を行った。
類似のセマンティックな内容と構造にもかかわらず,ベンガルの感情分析ツールは,異なるツールからの出力の不整合に加えて,異なるアイデンティティカテゴリ間のバイアスを示し,異なるアイデンティティ表現の方法に異なる応答を示すことを示した。
本研究は,ベンガル人コミュニティの植民地型社会文化構造と結びついて,感情分析ツールの下流バイアスの影響について考察する。
関連論文リスト
- You Shall Know a Tool by the Traces it Leaves: The Predictability of Sentiment Analysis Tools [74.98850427240464]
感情分析ツールが同じデータセットで一致しないことを示す。
感傷的アノテーションに使用される感情ツールは,その結果から予測できることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:27:38Z) - Personality Analysis for Social Media Users using Arabic language and its Effect on Sentiment Analysis [1.2903829793534267]
本研究は、Twitter上でのアラビア語の使用と性格特性と感情分析への影響の相関について検討した。
本研究では、プロフィール活動から抽出した情報と、ツイートの内容に基づいて、ユーザの性格特性を示す。
その結果,人格がソーシャルメディアの感情に影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-08T18:27:54Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - A Material Lens on Coloniality in NLP [57.63027898794855]
植民地化は「公式」植民地化を超えて植民地の被害を継続することである。
我々は、植民地性は暗黙的にNLPデータ、アルゴリズム、ソフトウェアに埋め込まれ、増幅されていると主張している。
論文 参考訳(メタデータ) (2023-11-14T18:52:09Z) - Evaluating Machine Perception of Indigeneity: An Analysis of ChatGPT's
Perceptions of Indigenous Roles in Diverse Scenarios [0.0]
この研究は、テクノロジが社会コンピューティングにおける不均一性に関連する社会的バイアスをどのように知覚し、潜在的に増幅するかについて、ユニークな視点を提供する。
この発見は、臨界コンピューティングにおける不均一性の広範な意味に関する洞察を与える。
論文 参考訳(メタデータ) (2023-10-13T16:46:23Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - Bangla Text Dataset and Exploratory Analysis for Online Harassment
Detection [0.0]
この記事でアクセス可能になったデータは、有名人、政府高官、そしてFacebook上のアスリートによる公開投稿の人々のコメントから収集され、マークされている。
データセットは、コメントがいじめの表現であるか否かを区別するマシンの開発を目的としてコンパイルされる。
論文 参考訳(メタデータ) (2021-02-04T08:35:18Z) - Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories [2.3424047967193826]
アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。
本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
論文 参考訳(メタデータ) (2020-10-06T22:33:58Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。