論文の概要: Contextualizing Hate Speech Classifiers with Post-hoc Explanation
- arxiv url: http://arxiv.org/abs/2005.02439v3
- Date: Mon, 6 Jul 2020 18:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 13:41:26.161617
- Title: Contextualizing Hate Speech Classifiers with Post-hoc Explanation
- Title(参考訳): ポストホックな説明によるヘイトスピーチ分類器のコンテキスト化
- Authors: Brendan Kennedy and Xisen Jin and Aida Mostafazadeh Davani and Morteza
Dehghani and Xiang Ren
- Abstract要約: ヘイトスピーチ分類器は、攻撃的または偏見的な方法で「ゲイ」や「ブラック」のようなグループ識別子が使用されているかどうかを決定するのに苦労する。
本稿では,これらの説明に基づく新たな正規化手法を提案する。
提案手法は, ドメイン外データに対する偽陽性を制限することによって, ベースラインを改良した。
- 参考スコア(独自算出の注目度): 26.044033793878683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech classifiers trained on imbalanced datasets struggle to determine
if group identifiers like "gay" or "black" are used in offensive or prejudiced
ways. Such biases manifest in false positives when these identifiers are
present, due to models' inability to learn the contexts which constitute a
hateful usage of identifiers. We extract SOC post-hoc explanations from
fine-tuned BERT classifiers to efficiently detect bias towards identity terms.
Then, we propose a novel regularization technique based on these explanations
that encourages models to learn from the context of group identifiers in
addition to the identifiers themselves. Our approach improved over baselines in
limiting false positives on out-of-domain data while maintaining or improving
in-domain performance. Project page:
https://inklab.usc.edu/contextualize-hate-speech/.
- Abstract(参考訳): 不均衡なデータセットで訓練されたヘイトスピーチ分類器は、攻撃的または偏見的な方法で「ゲイ」や「ブラック」のようなグループ識別子が使用されるかどうかを決定するのに苦労する。
このようなバイアスは、モデルが識別子の嫌悪な使用を構成するコンテキストを学習できないため、識別子が存在するときに偽陽性を示す。
SOC後説明を細調整されたBERT分類器から抽出し、識別項に対するバイアスを効率的に検出する。
そこで本研究では,これらの説明に基づく新たな正規化手法を提案する。
提案手法は,ドメイン内パフォーマンスを維持したり改善したりしながら,ドメイン外のデータに対する偽陽性を制限することによって,ベースラインを向上する。
プロジェクトページ: https://inklab.usc.edu/contextualize-hate-speech/
関連論文リスト
- Unveiling Social Media Comments with a Novel Named Entity Recognition System for Identity Groups [2.5849042763002426]
我々はアイデンティティグループのための名前付きエンティティ認識(NER)システムを開発した。
我々のツールは、文が攻撃を含むかどうかを検知するだけでなく、上記のグループに対応する文トークンもタグ付けする。
ソーシャルメディアに関するケーススタディで,Facebookのコメントを注釈付けし,IDグループに言及するニュースに関連するコメントと比較し,ツールの有用性を検証した。
論文 参考訳(メタデータ) (2024-05-13T19:33:18Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Reusing the Task-specific Classifier as a Discriminator:
Discriminator-free Adversarial Domain Adaptation [55.27563366506407]
非教師付きドメイン適応(UDA)のための識別器なし対向学習ネットワーク(DALN)を導入する。
DALNは、統一された目的によって明確なドメインアライメントとカテゴリの区別を達成する。
DALNは、さまざまなパブリックデータセット上の既存の最先端(SOTA)メソッドと比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-04-08T04:40:18Z) - Dynamically Refined Regularization for Improving Cross-corpora Hate
Speech Detection [30.462596705180534]
ヘイト音声分類器は、ソースと異なるデータセットで評価した場合、かなりの性能劣化を示す。
これまでの研究は、定義済みの静的辞書から特定の用語を正規化することでこの問題を緩和しようと試みてきた。
本稿では,単語リストを動的に洗練した帰属的手法を用いて,素早い相関を自動同定し,低減する手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T16:58:10Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z) - Demoting Racial Bias in Hate Speech Detection [39.376886409461775]
現在のヘイトスピーチデータセットには、アノテーターの毒性に対する認識とアフリカ系アメリカ人英語(AAE)の信号との間に相関がある。
本稿では,このバイアスを軽減するために,敵対的訓練を用いて,有害な文章の検出を学習するヘイトスピーチ分類器を導入する。
ヘイトスピーチデータセットとAEデータセットの実験結果から,本手法はヘイトスピーチ分類の性能を最小限に抑えつつ,AAEテキストの偽陽性率を大幅に低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-05-25T17:43:22Z) - Towards classification parity across cohorts [16.21248370949611]
この研究は、明示的かつ暗黙的な感度のある特徴にまたがる分類パリティを達成することを目的としている。
言語モデルを用いて学習した個々の言語の埋め込みをクラスタリングすることで、暗黙のコホートを得る。
我々は,コホート間のモデル性能の範囲を最小化することを目的とした損失関数の修正を導入することにより,分類パリティを向上させる。
論文 参考訳(メタデータ) (2020-05-16T16:31:08Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。