論文の概要: HateCheck: Functional Tests for Hate Speech Detection Models
- arxiv url: http://arxiv.org/abs/2012.15606v1
- Date: Thu, 31 Dec 2020 13:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 00:14:19.341821
- Title: HateCheck: Functional Tests for Hate Speech Detection Models
- Title(参考訳): HateCheck: ヘイト音声検出モデルのための機能テスト
- Authors: Paul R\"ottger, Bertram Vidgen, Dong Nguyen, Zeerak Waseem, Helen
Margetts, Janet Pierrehumbert
- Abstract要約: HateCheckはヘイトスピーチ検出モデルのための最初の機能テストスイートである。
我々は、過去の研究を見直して動機づける29のモデル機能を指定する。
我々は,最先端の変圧器検出モデルと商用モデルの試験を行い,致命的なモデルの弱点を明らかにする。
- 参考スコア(独自算出の注目度): 3.4938484663205776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting online hate is a difficult task that even state-of-the-art models
struggle with. In previous research, hate speech detection models are typically
evaluated by measuring their performance on held-out test data using metrics
such as accuracy and F1 score. However, this approach makes it difficult to
identify specific model weak points. It also risks overestimating generalisable
model quality due to increasingly well-evidenced systematic gaps and biases in
hate speech datasets. To enable more targeted diagnostic insights, we introduce
HateCheck, a first suite of functional tests for hate speech detection models.
We specify 29 model functionalities, the selection of which we motivate by
reviewing previous research and through a series of interviews with civil
society stakeholders. We craft test cases for each functionality and validate
data quality through a structured annotation process. To illustrate HateCheck's
utility, we test near-state-of-the-art transformer detection models as well as
a popular commercial model, revealing critical model weaknesses.
- Abstract(参考訳): オンライン憎しみを検出することは、最先端のモデルでさえ苦労する難しい課題だ。
前回の研究では、ヘイトスピーチ検出モデルは、精度やf1スコアなどの指標を用いて保持テストデータのパフォーマンスを測定することで評価される。
しかし、このアプローチは特定のモデルの弱点を特定するのを難しくする。
また、ヘイトスピーチデータセットの体系的なギャップやバイアスが高まり、一般化可能なモデル品質を過大評価するリスクもある。
そこで我々は,ヘイトスピーチ検出モデルのための機能テストスイートであるhatcheckを紹介する。
これまでの研究や市民社会の利害関係者との一連のインタビューを通じて、29のモデル機能を特定し、その選択をモチベーションとした。
各機能のテストケースを作成し、構造化アノテーションプロセスを通じてデータ品質を検証する。
HateCheckの実用性を説明するために、我々は最先端のトランスフォーマー検出モデルと一般的な商用モデルをテストする。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate
Speech Detection [4.809236881780707]
ChatGPTのような大規模言語モデルは、ヘイトスピーチ検出など、いくつかのタスクを実行する上で大きな可能性を最近示した。
本研究では,ChatGPTモデルの長所と短所を,11言語にわたるヘッジ音声の粒度レベルで評価することを目的とした。
論文 参考訳(メタデータ) (2023-05-22T17:36:58Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Multilingual HateCheck: Functional Tests for Multilingual Hate Speech
Detection Models [14.128029444990895]
HateCheck(MHC)は,多言語ヘイトスピーチ検出モデルのための機能テストスイートである。
MHCは、他のヘイトスピーチデータセットよりも多くの言語である10言語にわたる34の機能をカバーしている。
我々は,ハイパフォーマンスな多言語ヘイトスピーチ検出モデルの訓練とテストを行い,モノリンガルおよびクロスランガルアプリケーションにおいて重要なモデルの弱点を明らかにする。
論文 参考訳(メタデータ) (2022-06-20T17:54:39Z) - HateCheckHIn: Evaluating Hindi Hate Speech Detection Models [6.52974752091861]
マルチリンガルヘイトは 自動検出の大きな課題です
評価のための機能セットを紹介する。
Hindiをベース言語として考えると、各機能のテストケースを作成します。
論文 参考訳(メタデータ) (2022-04-30T19:09:09Z) - Checking HateCheck: a cross-functional analysis of behaviour-aware
learning for hate speech detection [4.0810783261728565]
本稿では,ヘイトスピーチ検出システムのための機能テストスイートであるHateCheckを用いた微調整方式について検討する。
テストケースのカテゴリを保持して,HateCheckのさまざまな構成に関するモデルをトレーニングし,評価する。
微調整処理により,保持機能と同一性群の分類精度が向上した。
しかし, 保留機能クラスやヘイトスピーチ検出データの性能は低下し, 一般化は多種多様であった。
論文 参考訳(メタデータ) (2022-04-08T13:03:01Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。