論文の概要: HateCheck: Functional Tests for Hate Speech Detection Models
- arxiv url: http://arxiv.org/abs/2012.15606v1
- Date: Thu, 31 Dec 2020 13:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 00:14:19.341821
- Title: HateCheck: Functional Tests for Hate Speech Detection Models
- Title(参考訳): HateCheck: ヘイト音声検出モデルのための機能テスト
- Authors: Paul R\"ottger, Bertram Vidgen, Dong Nguyen, Zeerak Waseem, Helen
Margetts, Janet Pierrehumbert
- Abstract要約: HateCheckはヘイトスピーチ検出モデルのための最初の機能テストスイートである。
我々は、過去の研究を見直して動機づける29のモデル機能を指定する。
我々は,最先端の変圧器検出モデルと商用モデルの試験を行い,致命的なモデルの弱点を明らかにする。
- 参考スコア(独自算出の注目度): 3.4938484663205776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting online hate is a difficult task that even state-of-the-art models
struggle with. In previous research, hate speech detection models are typically
evaluated by measuring their performance on held-out test data using metrics
such as accuracy and F1 score. However, this approach makes it difficult to
identify specific model weak points. It also risks overestimating generalisable
model quality due to increasingly well-evidenced systematic gaps and biases in
hate speech datasets. To enable more targeted diagnostic insights, we introduce
HateCheck, a first suite of functional tests for hate speech detection models.
We specify 29 model functionalities, the selection of which we motivate by
reviewing previous research and through a series of interviews with civil
society stakeholders. We craft test cases for each functionality and validate
data quality through a structured annotation process. To illustrate HateCheck's
utility, we test near-state-of-the-art transformer detection models as well as
a popular commercial model, revealing critical model weaknesses.
- Abstract(参考訳): オンライン憎しみを検出することは、最先端のモデルでさえ苦労する難しい課題だ。
前回の研究では、ヘイトスピーチ検出モデルは、精度やf1スコアなどの指標を用いて保持テストデータのパフォーマンスを測定することで評価される。
しかし、このアプローチは特定のモデルの弱点を特定するのを難しくする。
また、ヘイトスピーチデータセットの体系的なギャップやバイアスが高まり、一般化可能なモデル品質を過大評価するリスクもある。
そこで我々は,ヘイトスピーチ検出モデルのための機能テストスイートであるhatcheckを紹介する。
これまでの研究や市民社会の利害関係者との一連のインタビューを通じて、29のモデル機能を特定し、その選択をモチベーションとした。
各機能のテストケースを作成し、構造化アノテーションプロセスを通じてデータ品質を検証する。
HateCheckの実用性を説明するために、我々は最先端のトランスフォーマー検出モデルと一般的な商用モデルをテストする。
関連論文リスト
- Multilingual HateCheck: Functional Tests for Multilingual Hate Speech
Detection Models [14.128029444990895]
HateCheck(MHC)は,多言語ヘイトスピーチ検出モデルのための機能テストスイートである。
MHCは、他のヘイトスピーチデータセットよりも多くの言語である10言語にわたる34の機能をカバーしている。
我々は,ハイパフォーマンスな多言語ヘイトスピーチ検出モデルの訓練とテストを行い,モノリンガルおよびクロスランガルアプリケーションにおいて重要なモデルの弱点を明らかにする。
論文 参考訳(メタデータ) (2022-06-20T17:54:39Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [101.41859030750364]
我々は、注釈付き要約出力の9つのデータセットからラベル付き事実性エラーを収集する。
次に、ラベル付きエラータイプを単一の分類に統一し、データセットのエラーをそれぞれ共有ラベル付き空間に投影する。
このベンチマークでは、最先端の5つのエラー検出手法を対比する。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - HateCheckHIn: Evaluating Hindi Hate Speech Detection Models [6.52974752091861]
マルチリンガルヘイトは 自動検出の大きな課題です
評価のための機能セットを紹介する。
Hindiをベース言語として考えると、各機能のテストケースを作成します。
論文 参考訳(メタデータ) (2022-04-30T19:09:09Z) - Checking HateCheck: a cross-functional analysis of behaviour-aware
learning for hate speech detection [4.0810783261728565]
本稿では,ヘイトスピーチ検出システムのための機能テストスイートであるHateCheckを用いた微調整方式について検討する。
テストケースのカテゴリを保持して,HateCheckのさまざまな構成に関するモデルをトレーニングし,評価する。
微調整処理により,保持機能と同一性群の分類精度が向上した。
しかし, 保留機能クラスやヘイトスピーチ検出データの性能は低下し, 一般化は多種多様であった。
論文 参考訳(メタデータ) (2022-04-08T13:03:01Z) - Deep Learning for Hate Speech Detection: A Comparative Study [55.89299508786084]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Statistical Analysis of Perspective Scores on Hate Speech Detection [7.447951461558536]
最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータ上でテストする場合のみ効率的である。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
論文 参考訳(メタデータ) (2021-06-22T17:17:35Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - AngryBERT: Joint Learning Target and Emotion for Hate Speech Detection [5.649040805759824]
本論文では,感情分類によるヘイトスピーチ検出と,二次的関連タスクとしてのターゲット同定を共同学習するマルチタスク学習型モデルであるAngryBERTを提案する。
実験の結果,AngryBERTは最先端のシングルタスク学習やマルチタスク学習のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-03-14T16:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。