論文の概要: How Toxicity Classifiers and Large Language Models Respond to Ableism
- arxiv url: http://arxiv.org/abs/2410.03448v1
- Date: Fri, 4 Oct 2024 14:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:09:37.908572
- Title: How Toxicity Classifiers and Large Language Models Respond to Ableism
- Title(参考訳): 毒性分類器とAbleismに応答する大規模言語モデル
- Authors: Mahika Phutane, Ananya Seelam, Aditya Vashistha,
- Abstract要約: 障害のある人(PwD)は、定期的にネット上の憎悪やマイクロアグレッションに遭遇する。
我々はPwDをターゲットにした100のソーシャルメディアコメントのデータセットをキュレートした。
我々は160人の参加者を募集し、これらのコメントがいかに有毒で有能かを説明しました。
- 参考スコア(独自算出の注目度): 11.918730164549416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People with disabilities (PwD) regularly encounter ableist hate and microaggressions online. While online platforms use machine learning models to moderate online harm, there is little research investigating how these models interact with ableism. In this paper, we curated a dataset of 100 social media comments targeted towards PwD, and recruited 160 participants to rate and explain how toxic and ableist these comments were. We then prompted state-of-the art toxicity classifiers (TCs) and large language models (LLMs) to rate and explain the harm. Our analysis revealed that TCs and LLMs rated toxicity significantly lower than PwD, but LLMs rated ableism generally on par with PwD. However, ableism explanations by LLMs overlooked emotional harm, and lacked specificity and acknowledgement of context, important facets of PwD explanations. Going forward, we discuss challenges in designing disability-aware toxicity classifiers, and advocate for the shift from ableism detection to ableism interpretation and explanation.
- Abstract(参考訳): 障害のある人(PwD)は、定期的にネット上の憎悪やマイクロアグレッションに遭遇する。
オンラインプラットフォームは、機械学習モデルを使用してオンラインの害を和らげる一方で、これらのモデルが能力主義とどのように相互作用するかを研究する研究はほとんどない。
本稿では,PwDをターゲットとした100のソーシャルメディアコメントのデータセットをキュレートし,160人の参加者を募集し,これらのコメントがいかに有毒で有能かを説明する。
その後,最先端の毒性分類器 (TCs) と大規模言語モデル (LLMs) を誘導し,その害を評価・説明した。
分析の結果, TCsおよびLSMsはPwDよりも毒性が有意に低かったが, LLMsは一般的にPwDと同程度であった。
しかし、LLMによる能力主義の説明は感情的な害を見落としており、PwDの説明の重要な側面である文脈の特異性や認識が欠如していた。
障害を意識した毒性分類器を設計する上での課題について論じ,能力主義検出から能力主義解釈・説明への転換を提唱する。
関連論文リスト
- How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies [0.0]
商業モデル開発は、社会的影響評価を犠牲にして、法的負債に関する「安全」の訓練に重点を置いている。
これは、数年前に検索エンジンのオートコンプリートを観測できる同様の傾向を模倣している。
LLMにおけるステレオタイピングを評価するために,オートコンプリート方式の新たな評価課題を提案する。
論文 参考訳(メタデータ) (2024-07-16T14:04:35Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Diagnosing and Debiasing Corpus-Based Political Bias and Insults in GPT2 [0.0]
大規模な言語モデル (LLMs) をインターネットから流出した未フィルタリングコーパスでトレーニングすることは、一般的で有利なプラクティスである。
近年の研究では、生成事前学習型トランスフォーマー(GPT)言語モデルが、自身のバイアスを認識し、生成されたコンテンツの毒性を検出することが示されている。
本研究は、侮辱と政治的偏見の2つの追加的なバイアスを緩和する診断・偏見的アプローチの有効性について検討した。
論文 参考訳(メタデータ) (2023-11-17T01:20:08Z) - Inducing anxiety in large language models can induce bias [47.85323153767388]
我々は、確立された12の大規模言語モデル(LLM)に焦点を当て、精神医学でよく用いられる質問紙に答える。
以上の結果から,最新のLSMの6つが不安アンケートに強く反応し,人間に匹敵する不安スコアが得られた。
不安誘発は、LSMのスコアが不安アンケートに影響を及ぼすだけでなく、人種差別や老化などの偏見を測る以前に確立されたベンチマークにおいて、それらの行動に影響を及ぼす。
論文 参考訳(メタデータ) (2023-04-21T16:29:43Z) - Classification of social media Toxic comments using Machine learning
models [0.0]
この要約は、ソーシャルメディアプラットフォームにおける有害なコメントの問題を概説している。
この行動は反社会的行動と呼ばれ、オンライン討論、コメント、戦いの間に起こる。
明示的な言語を含むコメントは、有毒、重篤な有毒、わいせつ、脅迫、侮辱、同一性嫌悪など、様々なカテゴリに分類される。
ユーザーを不快な言葉から守るために、企業はコメントを掲示し、ユーザーをブロックし始めた。
論文 参考訳(メタデータ) (2023-04-14T05:40:11Z) - Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.53559226972413]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。
一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。
その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,世代間の毒性が著しく向上することが判明した。
論文 参考訳(メタデータ) (2023-04-11T16:53:54Z) - Navigating the Grey Area: How Expressions of Uncertainty and
Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。
その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。
これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文 参考訳(メタデータ) (2023-02-26T23:46:29Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - Reading Between the Demographic Lines: Resolving Sources of Bias in
Toxicity Classifiers [0.0]
パースペクティブAPIはおそらく業界で最も広く使われている毒性分類器である。
Googleのモデルは、一般的に標的とするグループのアイデンティティを参照する単語を含むコメントに、より高い毒性スコアを不公平に割り当てる傾向がある。
我々は,強い分類性能を維持しつつ,意図しないバイアスを低減する目的で,いくつかの毒性分類器を構築した。
論文 参考訳(メタデータ) (2020-06-29T21:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。