論文の概要: Stereotypical Bias Removal for Hate Speech Detection Task using
Knowledge-based Generalizations
- arxiv url: http://arxiv.org/abs/2001.05495v1
- Date: Wed, 15 Jan 2020 18:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 05:29:55.827520
- Title: Stereotypical Bias Removal for Hate Speech Detection Task using
Knowledge-based Generalizations
- Title(参考訳): 知識に基づく一般化を用いたヘイトスピーチ検出タスクのステレオタイプバイアス除去
- Authors: Pinkesh Badjatiya, Manish Gupta, Vasudeva Varma
- Abstract要約: ヘイトスピーチ検出のための非構造化テキストデータからのバイアス緩和について検討する。
バイアスのない学習に知識に基づく一般化を活用する新しい手法を提案する。
実世界の2つのデータセット、Wikipedia Talk PagesデータセットとTwitterデータセットを用いて実験したところ、知識に基づく一般化の使用により、より良いパフォーマンスが得られることがわかった。
- 参考スコア(独自算出の注目度): 16.304516254043865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the ever-increasing cases of hate spread on social media platforms, it
is critical to design abuse detection mechanisms to proactively avoid and
control such incidents. While there exist methods for hate speech detection,
they stereotype words and hence suffer from inherently biased training. Bias
removal has been traditionally studied for structured datasets, but we aim at
bias mitigation from unstructured text data. In this paper, we make two
important contributions. First, we systematically design methods to quantify
the bias for any model and propose algorithms for identifying the set of words
which the model stereotypes. Second, we propose novel methods leveraging
knowledge-based generalizations for bias-free learning. Knowledge-based
generalization provides an effective way to encode knowledge because the
abstraction they provide not only generalizes content but also facilitates
retraction of information from the hate speech detection classifier, thereby
reducing the imbalance. We experiment with multiple knowledge generalization
policies and analyze their effect on general performance and in mitigating
bias. Our experiments with two real-world datasets, a Wikipedia Talk Pages
dataset (WikiDetox) of size ~96k and a Twitter dataset of size ~24k, show that
the use of knowledge-based generalizations results in better performance by
forcing the classifier to learn from generalized content. Our methods utilize
existing knowledge-bases and can easily be extended to other tasks
- Abstract(参考訳): ソーシャルメディアプラットフォームに憎悪が広がり続ける中で、そのような事件を積極的に回避し、制御するために乱用検知機構を設計することが重要である。
ヘイトスピーチ検出の方法は存在するが、彼らは単語をステレオタイプし、本質的にバイアスのあるトレーニングに苦しむ。
バイアス除去は従来,構造化データセットで研究されてきたが,非構造化テキストデータからのバイアス軽減を目的としている。
本稿では2つの重要な貢献を行う。
まず,任意のモデルに対するバイアスを定量化する手法を体系的に設計し,モデルがステレオタイプする単語集合を同定するアルゴリズムを提案する。
第二に、バイアスのない学習に知識に基づく一般化を活用する新しい手法を提案する。
知識に基づく一般化は、コンテンツを一般化するだけでなく、ヘイトスピーチ検出分類器からの情報の抽出を容易にするため、知識をエンコードする効果的な方法である。
我々は,複数の知識一般化政策を試し,その一般性およびバイアス軽減効果を分析した。
実世界の2つのデータセット、サイズ96kのWikipedia Talk Pagesデータセット(WikiDetox)とサイズ24kのTwitterデータセットを用いて実験したところ、知識に基づく一般化の使用により、分類器に一般化コンテンツから学習させることにより、より良いパフォーマンスが得られることがわかった。
我々の手法は既存の知識ベースを利用し、簡単に他のタスクに拡張できる。
関連論文リスト
- HateDebias: On the Diversity and Variability of Hate Speech Debiasing [14.225997610785354]
我々はHateDebiasという名のベンチマークを提案し、連続的かつ変化する環境下でのヘイトスピーチ検出のモデル能力を分析する。
具体的には、バイアスの多様性を満たすために、さまざまな種類のバイアスを持つ既存のヘイトスピーチ検出データセットを収集します。
我々は,HateDebiasの性能を1種類のバイアスで学習したモデルの検出精度を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:18:02Z) - Language-guided Detection and Mitigation of Unknown Dataset Bias [23.299264313976213]
本稿では,キャプションの部分的発生に基づく事前知識のないキーワードとして潜在的なバイアスを識別する枠組みを提案する。
我々のフレームワークは、事前知識のない既存のメソッドよりも優れているだけでなく、事前知識を前提としたメソッドにさえ匹敵する。
論文 参考訳(メタデータ) (2024-06-05T03:11:33Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Look Beyond Bias with Entropic Adversarial Data Augmentation [4.893694715581673]
ディープニューラルネットワークは、スパイラルパターンと因果パターンを区別せず、他を無視しながら最も予測的なパターンのみを学ぶ。
ネットワークをこのような刺激的なバイアスに頑健にするためにデバイアス法が開発されたが、データセットがバイアスを受けているかどうかを事前に知る必要がある。
本稿では,「隠された」因果情報がバイアス画像に含まれる場合が多いため,このようなサンプルは必ずしも必要ではない,と論じる。
論文 参考訳(メタデータ) (2023-01-10T08:25:24Z) - Power of Explanations: Towards automatic debiasing in hate speech
detection [19.26084350822197]
ヘイトスピーチ検出は、自然言語処理(NLP)の現実世界における一般的なダウンストリームアプリケーションである。
本稿では,潜在的なバイアスを検出するための説明手法を頼りに,自動誤用検知(MiD)を提案する。
論文 参考訳(メタデータ) (2022-09-07T14:14:03Z) - ToKen: Task Decomposition and Knowledge Infusion for Few-Shot Hate
Speech Detection [85.68684067031909]
この問題を数ショットの学習タスクとみなし、タスクを「構成」部分に分解することで大きな成果を上げている。
さらに、推論データセット(例えばAtomic 2020)から知識を注入することで、パフォーマンスはさらに向上する。
論文 参考訳(メタデータ) (2022-05-25T05:10:08Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - Towards Measuring Bias in Image Classification [61.802949761385]
畳み込みニューラルネットワーク(CNN)は、主要なコンピュータビジョンタスクの最先端技術となっている。
しかし、複雑な構造のため、その決定は産業世界の何らかの文脈での使用を制限するかを理解することは困難である。
帰属マップによるデータのバイアスを明らかにするための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-01T10:50:39Z) - Detecting and Understanding Generalization Barriers for Neural Machine
Translation [53.23463279153577]
本稿では,未知の入力文内での一般化バリアワードの同定と理解を試みる。
本稿では,一般化バリアワードの原理的定義と,計算において抽出可能な修正版を提案する。
次に、Zh$Leftrightarrow$En NISTベンチマークで検出された一般化障壁ワードについて広範な解析を行う。
論文 参考訳(メタデータ) (2020-04-05T12:33:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。