Fugu-MT 論文翻訳(概要): How Toxicity Classifiers and Large Language Models Respond to Ableism

論文の概要: How Toxicity Classifiers and Large Language Models Respond to Ableism

arxiv url: http://arxiv.org/abs/2410.03448v1
Date: Fri, 4 Oct 2024 14:09:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 22:09:37.908572
Title: How Toxicity Classifiers and Large Language Models Respond to Ableism
Title（参考訳）: 毒性分類器とAbleismに応答する大規模言語モデル
Authors: Mahika Phutane, Ananya Seelam, Aditya Vashistha,
Abstract要約: 障害のある人(PwD)は、定期的にネット上の憎悪やマイクロアグレッションに遭遇する。我々はPwDをターゲットにした100のソーシャルメディアコメントのデータセットをキュレートした。我々は160人の参加者を募集し、これらのコメントがいかに有毒で有能かを説明しました。
参考スコア（独自算出の注目度）: 11.918730164549416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: People with disabilities (PwD) regularly encounter ableist hate and microaggressions online. While online platforms use machine learning models to moderate online harm, there is little research investigating how these models interact with ableism. In this paper, we curated a dataset of 100 social media comments targeted towards PwD, and recruited 160 participants to rate and explain how toxic and ableist these comments were. We then prompted state-of-the art toxicity classifiers (TCs) and large language models (LLMs) to rate and explain the harm. Our analysis revealed that TCs and LLMs rated toxicity significantly lower than PwD, but LLMs rated ableism generally on par with PwD. However, ableism explanations by LLMs overlooked emotional harm, and lacked specificity and acknowledgement of context, important facets of PwD explanations. Going forward, we discuss challenges in designing disability-aware toxicity classifiers, and advocate for the shift from ableism detection to ableism interpretation and explanation.
Abstract（参考訳）: 障害のある人(PwD)は、定期的にネット上の憎悪やマイクロアグレッションに遭遇する。オンラインプラットフォームは、機械学習モデルを使用してオンラインの害を和らげる一方で、これらのモデルが能力主義とどのように相互作用するかを研究する研究はほとんどない。本稿では,PwDをターゲットとした100のソーシャルメディアコメントのデータセットをキュレートし,160人の参加者を募集し,これらのコメントがいかに有毒で有能かを説明する。その後,最先端の毒性分類器 (TCs) と大規模言語モデル (LLMs) を誘導し,その害を評価・説明した。分析の結果, TCsおよびLSMsはPwDよりも毒性が有意に低かったが, LLMsは一般的にPwDと同程度であった。しかし、LLMによる能力主義の説明は感情的な害を見落としており、PwDの説明の重要な側面である文脈の特異性や認識が欠如していた。障害を意識した毒性分類器を設計する上での課題について論じ,能力主義検出から能力主義解釈・説明への転換を提唱する。

関連論文リスト

Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文参考訳（メタデータ） (2025-07-10T07:11:57Z)
Beyond Black-Box AI: Interpretable Hybrid Systems for Dementia Care [2.4339626079536925]
近年の大規模言語モデル(LLM)のブームは、人工知能(AI)システムが医療診断に役立つという期待を再燃させた。ベンチマークスコアはめちゃくちゃですが、LCMアシスタントはまだベッドサイドで測定可能な改善を提供していません。このスクーピングレビューは、臨床現場で実践的な貢献をするためにAIが制限されている領域を強調することを目的としている。
論文参考訳（メタデータ） (2025-07-02T01:43:06Z)
AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals [0.0]
本稿では,モデルに基づく評価手法がユーザと異なる反応を評価できるかどうかを検討する。 LLM-as-a-Judgeシステムでは,人間よりも倫理的拒絶が有意に良好であることがわかった。
論文参考訳（メタデータ） (2025-05-21T10:56:16Z)
Disability data futures: Achievable imaginaries for AI and disability data justice [2.0549239024359762]
データとは、個人のアイデンティティが現代の状態やシステムでフィルタリングされる媒体である。データとAIの歴史は、しばしば障害排除、抑圧、障害経験の削減の1つです。この章は、人工知能と障害データ正義のための達成可能な想像力を記述するために、4人の学者と障害擁護者を集めている。
論文参考訳（メタデータ） (2024-11-06T13:04:29Z)
Confident Teacher, Confident Student? A Novel User Study Design for Investigating the Didactic Potential of Explanations and their Impact on Uncertainty [1.0855602842179624]
説明可能な人工知能(XAI)を用いた視覚課題における説明が人的パフォーマンスに与える影響について検討する。アノテーションの精度が向上し、AIアシストに対する不確実性が低下していることがわかりました。ユーザーは説明を示すと、モデルの予測をより頻繁に再現する傾向がある。
論文参考訳（メタデータ） (2024-09-10T12:59:50Z)
How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies [0.0]
商業モデル開発は、社会的影響評価を犠牲にして、法的負債に関する「安全」の訓練に重点を置いている。これは、数年前に検索エンジンのオートコンプリートを観測できる同様の傾向を模倣している。 LLMにおけるステレオタイピングを評価するために,オートコンプリート方式の新たな評価課題を提案する。
論文参考訳（メタデータ） (2024-07-16T14:04:35Z)
Navigating AI Fallibility: Examining People's Reactions and Perceptions of AI after Encountering Personality Misrepresentations [7.256711790264119]
ハイパーパーソナライズされたAIシステムは、パーソナライズされたレコメンデーションを提供するために人々の特性をプロファイルする。これらのシステムは、人々の最も個人的な特性を推測する際にエラーに免疫がない。人格の誤表現に遭遇した後、人々がどのように反応し、AIを知覚するかを検討するための2つの研究を行った。
論文参考訳（メタデータ） (2024-05-25T21:27:15Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
Diagnosing and Debiasing Corpus-Based Political Bias and Insults in GPT2 [0.0]
大規模な言語モデル (LLMs) をインターネットから流出した未フィルタリングコーパスでトレーニングすることは、一般的で有利なプラクティスである。近年の研究では、生成事前学習型トランスフォーマー(GPT)言語モデルが、自身のバイアスを認識し、生成されたコンテンツの毒性を検出することが示されている。本研究は、侮辱と政治的偏見の2つの追加的なバイアスを緩和する診断・偏見的アプローチの有効性について検討した。
論文参考訳（メタデータ） (2023-11-17T01:20:08Z)
MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文参考訳（メタデータ） (2023-10-30T15:57:32Z)
Explainable Depression Symptom Detection in Social Media [2.677715367737641]
本稿では, トランスフォーマーアーキテクチャを用いて, ユーザの文章中の抑うつ症状マーカーの出現を検知し, 説明する。我々の自然言語による説明により、臨床医はバリデーションされた症状に基づいてモデルの判断を解釈できる。
論文参考訳（メタデータ） (2023-10-20T17:05:27Z)
Understanding the Effect of Counterfactual Explanations on Trust and Reliance on AI for Human-AI Collaborative Clinical Decision Making [5.381004207943597]
本研究は,7人のセラピストと10人のレイパーを対象に,ストローク後生存者の運動の質を評価するための実験を行った。我々は2種類のAI説明なしで、彼らのパフォーマンス、タスクの合意レベル、AIへの依存を分析した。我々の研究は、AIモデルの精度をより正確に見積り、間違ったAI出力に対する過度な信頼を減らすために、反事実的説明の可能性について論じている。
論文参考訳（メタデータ） (2023-08-08T16:23:46Z)
Inducing anxiety in large language models can induce bias [47.85323153767388]
我々は、確立された12の大規模言語モデル(LLM)に焦点を当て、精神医学でよく用いられる質問紙に答える。以上の結果から,最新のLSMの6つが不安アンケートに強く反応し,人間に匹敵する不安スコアが得られた。不安誘発は、LSMのスコアが不安アンケートに影響を及ぼすだけでなく、人種差別や老化などの偏見を測る以前に確立されたベンチマークにおいて、それらの行動に影響を及ぼす。
論文参考訳（メタデータ） (2023-04-21T16:29:43Z)
Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-04-16T11:22:59Z)
Classification of social media Toxic comments using Machine learning models [0.0]
この要約は、ソーシャルメディアプラットフォームにおける有害なコメントの問題を概説している。この行動は反社会的行動と呼ばれ、オンライン討論、コメント、戦いの間に起こる。明示的な言語を含むコメントは、有毒、重篤な有毒、わいせつ、脅迫、侮辱、同一性嫌悪など、様々なカテゴリに分類される。ユーザーを不快な言葉から守るために、企業はコメントを掲示し、ユーザーをブロックし始めた。
論文参考訳（メタデータ） (2023-04-14T05:40:11Z)
Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.53559226972413]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,世代間の毒性が著しく向上することが判明した。
論文参考訳（メタデータ） (2023-04-11T16:53:54Z)
Navigating the Grey Area: How Expressions of Uncertainty and Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文参考訳（メタデータ） (2023-02-26T23:46:29Z)
Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文参考訳（メタデータ） (2021-11-15T18:58:20Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文参考訳（メタデータ） (2021-07-28T17:32:04Z)
Mitigating Biases in Toxic Language Detection through Invariant Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文参考訳（メタデータ） (2021-06-14T08:49:52Z)
My Teacher Thinks The World Is Flat! Interpreting Automatic Essay Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文参考訳（メタデータ） (2020-12-27T06:19:20Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)
Reading Between the Demographic Lines: Resolving Sources of Bias in Toxicity Classifiers [0.0]
パースペクティブAPIはおそらく業界で最も広く使われている毒性分類器である。 Googleのモデルは、一般的に標的とするグループのアイデンティティを参照する単語を含むコメントに、より高い毒性スコアを不公平に割り当てる傾向がある。我々は,強い分類性能を維持しつつ,意図しないバイアスを低減する目的で,いくつかの毒性分類器を構築した。
論文参考訳（メタデータ） (2020-06-29T21:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。