論文の概要: How AI Fails: An Interactive Pedagogical Tool for Demonstrating Dialectal Bias in Automated Toxicity Models
- arxiv url: http://arxiv.org/abs/2511.06676v1
- Date: Mon, 10 Nov 2025 03:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.062461
- Title: How AI Fails: An Interactive Pedagogical Tool for Demonstrating Dialectal Bias in Automated Toxicity Models
- Title(参考訳): AIの失敗: 自動毒性モデルにおける方言バイアスの実証のための対話型教育ツール
- Authors: Subhojit Ghimire,
- Abstract要約: AIによるモデレーションは日々の生活に広まりつつある。
AIは偏見がある」という主張をよく耳にする
不適切」と宣言されたオンライン投稿が単に偏りのあるアルゴリズムの犠牲者ではないことをどうやって確信できるだろうか?
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Now that AI-driven moderation has become pervasive in everyday life, we often hear claims that "the AI is biased". While this is often said jokingly, the light-hearted remark reflects a deeper concern. How can we be certain that an online post flagged as "inappropriate" was not simply the victim of a biased algorithm? This paper investigates this problem using a dual approach. First, I conduct a quantitative benchmark of a widely used toxicity model (unitary/toxic-bert) to measure performance disparity between text in African-American English (AAE) and Standard American English (SAE). The benchmark reveals a clear, systematic bias: on average, the model scores AAE text as 1.8 times more toxic and 8.8 times higher for "identity hate". Second, I introduce an interactive pedagogical tool that makes these abstract biases tangible. The tool's core mechanic, a user-controlled "sensitivity threshold," demonstrates that the biased score itself is not the only harm; instead, the more-concerning harm is the human-set, seemingly neutral policy that ultimately operationalises discrimination. This work provides both statistical evidence of disparate impact and a public-facing tool designed to foster critical AI literacy.
- Abstract(参考訳): AI駆動のモデレーションが日常的に広まりつつある今、私たちはしばしば「AIは偏っている」という主張を聞きます。
これは冗談のように言われることが多いが、軽快な発言は深い懸念を反映している。
不適切」と宣言されたオンライン投稿が単に偏りのあるアルゴリズムの犠牲者ではないことをどうやって確信できるだろうか?
本稿では,この問題を二重アプローチを用いて検討する。
まず、アフリカ・アメリカン・イングリッシュ(AAE)とスタンダード・アメリカン・イングリッシュ(SAE)のテキスト間のパフォーマンス格差を測定するために、広く使われている毒性モデル(単位/毒性ベルト)の定量的ベンチマークを行う。
平均すると、このモデルはAEテキストを1.8倍の毒性、8.8倍の「アイデンティティヘイト」と評価している。
次に、これらの抽象バイアスを具現化するインタラクティブな教育ツールを紹介します。
ツールのコアメカニックである、ユーザが制御する「感度閾値」は、偏りのあるスコア自体が唯一の害ではないことを証明している。
この研究は、異なる影響の統計的証拠と、重要なAIリテラシーを促進するように設計された公開ツールの両方を提供する。
関連論文リスト
- Fairness Is Not Enough: Auditing Competence and Intersectional Bias in AI-powered Resume Screening [0.0]
本研究では,8つの主要なAIプラットフォームに関する2部監査を通じて,能力の問題を検討する。
実験1では、複雑な、文脈的な人種的、性別的偏見が確認され、いくつかのモデルは、人口統計学的信号の存在のために候補を罰するだけであった。
実験2は、コア能力を評価し、重要な洞察を与えた: バイアスのないように見えるいくつかのモデルは、実際に、実質的な評価を行うことができない。
論文 参考訳(メタデータ) (2025-07-11T16:57:13Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - A Comprehensive View of the Biases of Toxicity and Sentiment Analysis
Methods Towards Utterances with African American English Expressions [5.472714002128254]
ウェブベース(YouTubeとTwitter)の2つのデータセットと英語の2つのデータセットのバイアスについて検討した。
我々は,言語問合せおよびワードカウントソフトウェアから言語制御機能を介してAE表現の使用が与える影響を分離する。
また, AAE 表現の多用により, 話者の毒性が著しく向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-23T12:41:03Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z) - Reading Between the Demographic Lines: Resolving Sources of Bias in
Toxicity Classifiers [0.0]
パースペクティブAPIはおそらく業界で最も広く使われている毒性分類器である。
Googleのモデルは、一般的に標的とするグループのアイデンティティを参照する単語を含むコメントに、より高い毒性スコアを不公平に割り当てる傾向がある。
我々は,強い分類性能を維持しつつ,意図しないバイアスを低減する目的で,いくつかの毒性分類器を構築した。
論文 参考訳(メタデータ) (2020-06-29T21:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。