論文の概要: How Toxicity Classifiers and Large Language Models Respond to Ableism
- arxiv url: http://arxiv.org/abs/2410.03448v1
- Date: Fri, 4 Oct 2024 14:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:09:37.908572
- Title: How Toxicity Classifiers and Large Language Models Respond to Ableism
- Title(参考訳): 毒性分類器とAbleismに応答する大規模言語モデル
- Authors: Mahika Phutane, Ananya Seelam, Aditya Vashistha,
- Abstract要約: 障害のある人(PwD)は、定期的にネット上の憎悪やマイクロアグレッションに遭遇する。
我々はPwDをターゲットにした100のソーシャルメディアコメントのデータセットをキュレートした。
我々は160人の参加者を募集し、これらのコメントがいかに有毒で有能かを説明しました。
- 参考スコア(独自算出の注目度): 11.918730164549416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People with disabilities (PwD) regularly encounter ableist hate and microaggressions online. While online platforms use machine learning models to moderate online harm, there is little research investigating how these models interact with ableism. In this paper, we curated a dataset of 100 social media comments targeted towards PwD, and recruited 160 participants to rate and explain how toxic and ableist these comments were. We then prompted state-of-the art toxicity classifiers (TCs) and large language models (LLMs) to rate and explain the harm. Our analysis revealed that TCs and LLMs rated toxicity significantly lower than PwD, but LLMs rated ableism generally on par with PwD. However, ableism explanations by LLMs overlooked emotional harm, and lacked specificity and acknowledgement of context, important facets of PwD explanations. Going forward, we discuss challenges in designing disability-aware toxicity classifiers, and advocate for the shift from ableism detection to ableism interpretation and explanation.
- Abstract(参考訳): 障害のある人(PwD)は、定期的にネット上の憎悪やマイクロアグレッションに遭遇する。
オンラインプラットフォームは、機械学習モデルを使用してオンラインの害を和らげる一方で、これらのモデルが能力主義とどのように相互作用するかを研究する研究はほとんどない。
本稿では,PwDをターゲットとした100のソーシャルメディアコメントのデータセットをキュレートし,160人の参加者を募集し,これらのコメントがいかに有毒で有能かを説明する。
その後,最先端の毒性分類器 (TCs) と大規模言語モデル (LLMs) を誘導し,その害を評価・説明した。
分析の結果, TCsおよびLSMsはPwDよりも毒性が有意に低かったが, LLMsは一般的にPwDと同程度であった。
しかし、LLMによる能力主義の説明は感情的な害を見落としており、PwDの説明の重要な側面である文脈の特異性や認識が欠如していた。
障害を意識した毒性分類器を設計する上での課題について論じ,能力主義検出から能力主義解釈・説明への転換を提唱する。
関連論文リスト
- Disability data futures: Achievable imaginaries for AI and disability data justice [2.0549239024359762]
データとは、個人のアイデンティティが現代の状態やシステムでフィルタリングされる媒体である。
データとAIの歴史は、しばしば障害排除、抑圧、障害経験の削減の1つです。
この章は、人工知能と障害データ正義のための達成可能な想像力を記述するために、4人の学者と障害擁護者を集めている。
論文 参考訳(メタデータ) (2024-11-06T13:04:29Z) - Confident Teacher, Confident Student? A Novel User Study Design for Investigating the Didactic Potential of Explanations and their Impact on Uncertainty [1.0855602842179624]
説明可能な人工知能(XAI)を用いた視覚課題における説明が人的パフォーマンスに与える影響について検討する。
アノテーションの精度が向上し、AIアシストに対する不確実性が低下していることがわかりました。
ユーザーは説明を示すと、モデルの予測をより頻繁に再現する傾向がある。
論文 参考訳(メタデータ) (2024-09-10T12:59:50Z) - Navigating AI Fallibility: Examining People's Reactions and Perceptions of AI after Encountering Personality Misrepresentations [7.256711790264119]
ハイパーパーソナライズされたAIシステムは、パーソナライズされたレコメンデーションを提供するために人々の特性をプロファイルする。
これらのシステムは、人々の最も個人的な特性を推測する際にエラーに免疫がない。
人格の誤表現に遭遇した後、人々がどのように反応し、AIを知覚するかを検討するための2つの研究を行った。
論文 参考訳(メタデータ) (2024-05-25T21:27:15Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Explainable Depression Symptom Detection in Social Media [2.677715367737641]
本稿では, トランスフォーマーアーキテクチャを用いて, ユーザの文章中の抑うつ症状マーカーの出現を検知し, 説明する。
我々の自然言語による説明により、臨床医はバリデーションされた症状に基づいてモデルの判断を解釈できる。
論文 参考訳(メタデータ) (2023-10-20T17:05:27Z) - Understanding the Effect of Counterfactual Explanations on Trust and
Reliance on AI for Human-AI Collaborative Clinical Decision Making [5.381004207943597]
本研究は,7人のセラピストと10人のレイパーを対象に,ストローク後生存者の運動の質を評価するための実験を行った。
我々は2種類のAI説明なしで、彼らのパフォーマンス、タスクの合意レベル、AIへの依存を分析した。
我々の研究は、AIモデルの精度をより正確に見積り、間違ったAI出力に対する過度な信頼を減らすために、反事実的説明の可能性について論じている。
論文 参考訳(メタデータ) (2023-08-08T16:23:46Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。