論文の概要: A Keyword Based Approach to Understanding the Overpenalization of
Marginalized Groups by English Marginal Abuse Models on Twitter
- arxiv url: http://arxiv.org/abs/2210.06351v1
- Date: Fri, 7 Oct 2022 20:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 16:02:11.012596
- Title: A Keyword Based Approach to Understanding the Overpenalization of
Marginalized Groups by English Marginal Abuse Models on Twitter
- Title(参考訳): Twitter上での英語マルギナル乱用モデルによるマルギナル化集団の過剰化理解のためのキーワードベースアプローチ
- Authors: Kyra Yee, Alice Schoenauer Sebag, Olivia Redfield, Emily Sheng,
Matthias Eck, Luca Belli
- Abstract要約: 有害なコンテンツ検出モデルは、疎外されたグループからのコンテンツに対する偽陽性率が高い傾向にある。
テキストベースモデルに関連付けられた潜在的害の重症度を検出・測定するための原則的アプローチを提案する。
提案手法を適用して,Twitterの英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・日本語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語
- 参考スコア(独自算出の注目度): 2.9604738405097333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harmful content detection models tend to have higher false positive rates for
content from marginalized groups. In the context of marginal abuse modeling on
Twitter, such disproportionate penalization poses the risk of reduced
visibility, where marginalized communities lose the opportunity to voice their
opinion on the platform. Current approaches to algorithmic harm mitigation, and
bias detection for NLP models are often very ad hoc and subject to human bias.
We make two main contributions in this paper. First, we design a novel
methodology, which provides a principled approach to detecting and measuring
the severity of potential harms associated with a text-based model. Second, we
apply our methodology to audit Twitter's English marginal abuse model, which is
used for removing amplification eligibility of marginally abusive content.
Without utilizing demographic labels or dialect classifiers, we are still able
to detect and measure the severity of issues related to the over-penalization
of the speech of marginalized communities, such as the use of reclaimed speech,
counterspeech, and identity related terms. In order to mitigate the associated
harms, we experiment with adding additional true negative examples and find
that doing so provides improvements to our fairness metrics without large
degradations in model performance.
- Abstract(参考訳): 有害なコンテンツ検出モデルは、疎外されたグループからのコンテンツに対する偽陽性率が高い傾向にある。
twitterのマージン乱用モデリングの文脈では、このような不釣り合いなペナルティ化は、マージン化されたコミュニティがプラットフォーム上で意見を述べる機会を失うという、可視性低下のリスクをもたらす。
アルゴリズムによる害軽減とNLPモデルのバイアス検出への現在のアプローチは、しばしば非常にアドホックであり、人間のバイアスを受ける。
この論文には2つの主な貢献がある。
まず,テキストベースモデルに関連する潜在的害の重大度を検出・測定するための原理的手法を提案する。
第2に,本手法をtwitterの英文悪用モデルの監査に適用し,悪用コンテンツの増幅能の除去に用いた。
人口統計ラベルや方言分類器を使わずに、再生された音声、反音声、アイデンティティ関連用語の使用など、余剰化コミュニティのスピーチの過額化に関連する問題の重大度を検出し、測定することができる。
関連する害を緩和するため、我々は真にネガティブな例を追加して実験を行い、モデル性能に大きな劣化を伴わずに、公平度指標を改善することを発見した。
関連論文リスト
- The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Modes of Analyzing Disinformation Narratives With AI/ML/Text Mining to Assist in Mitigating the Weaponization of Social Media [0.8287206589886879]
本稿では,ソーシャルメディアにおける悪意あるコミュニケーションを捕捉・監視するための定量的モードの必要性を明らかにする。
ソーシャル・ネットワークを利用したメッセージの「ウェポン化」が意図的に行われており、州が後援し、私的に運営される政治的指向のエンティティも含む。
FacebookやX/Twitterのような主要プラットフォームにモデレーションを導入しようとする試みにもかかわらず、完全にモデレートされていないスペースを提供する代替ソーシャルネットワークが現在確立されている。
論文 参考訳(メタデータ) (2024-05-25T00:02:14Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Enriching Abusive Language Detection with Community Context [0.3708656266586145]
叙述表現の使用は、良心的または活発な権限を与えることができる。
乱用検出のモデルは、これらの表現を軽蔑的で不注意に、疎外されたグループが持つ生産的な会話を検閲するものとして誤分類する。
本稿では,コミュニティの文脈が乱用言語検出における分類結果をどのように改善するかを強調した。
論文 参考訳(メタデータ) (2022-06-16T20:54:02Z) - Improving Generalizability in Implicitly Abusive Language Detection with
Concept Activation Vectors [8.525950031069687]
一般乱用言語分類器は、明らかに乱用発話を検出するのにかなり信頼性が高い傾向にあるが、より微妙で暗黙的な新しいタイプの乱用を検出できないことを示す。
本稿では,コンピュータビジョンからのTCAV(Testing Concept Activation Vector)法に基づく解釈可能性手法を提案する。
論文 参考訳(メタデータ) (2022-04-05T14:52:18Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Cross-geographic Bias Detection in Toxicity Modeling [9.128264779870538]
より広い地理的文脈における語彙バイアスを頑健に検出する弱教師付き手法を提案する。
提案手法は, 誤りの正当群を同定し, 続いて, その地理的文脈において, 攻撃的・無害な言語に対する人間の判断を反映していることを示す。
論文 参考訳(メタデータ) (2021-04-14T17:32:05Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。