論文の概要: On the Challenges of Building Datasets for Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2309.02912v1
- Date: Wed, 6 Sep 2023 11:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 15:44:17.158767
- Title: On the Challenges of Building Datasets for Hate Speech Detection
- Title(参考訳): ヘイトスピーチ検出のための構築データセットの課題
- Authors: Vitthal Bhandari
- Abstract要約: 我々はまず,データ中心のレンズを用いてヘイトスピーチ検出を取り巻く問題を分析する。
次に、データ生成パイプラインを7つの広範囲にわたってカプセル化する、包括的なフレームワークの概要を示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detection of hate speech has been formulated as a standalone application of
NLP and different approaches have been adopted for identifying the target
groups, obtaining raw data, defining the labeling process, choosing the
detection algorithm, and evaluating the performance in the desired setting.
However, unlike other downstream tasks, hate speech suffers from the lack of
large-sized, carefully curated, generalizable datasets owing to the highly
subjective nature of the task. In this paper, we first analyze the issues
surrounding hate speech detection through a data-centric lens. We then outline
a holistic framework to encapsulate the data creation pipeline across seven
broad dimensions by taking the specific example of hate speech towards sexual
minorities. We posit that practitioners would benefit from following this
framework as a form of best practice when creating hate speech datasets in the
future.
- Abstract(参考訳): ヘイトスピーチの検出はNLPのスタンドアロンな応用として定式化され、ターゲットグループを特定し、生データを取得し、ラベル付けプロセスを定義し、検出アルゴリズムを選択し、所望の環境での性能を評価するために異なるアプローチが採用されている。
しかし、他の下流タスクとは異なり、ヘイトスピーチは、タスクの非常に主観的な性質のため、大規模で慎重にキュレートされ、一般化可能なデータセットが欠如している。
本稿では,まずデータ中心レンズを用いてヘイトスピーチ検出に関する問題を分析する。
次に、ヘイトスピーチの具体例を性的マイノリティに当てて、データ作成パイプラインを7つの広い次元にカプセル化する包括的枠組みを概説する。
我々は、将来ヘイトスピーチデータセットを作成する際のベストプラクティスとして、実践者がこのフレームワークに従うことの恩恵があると仮定する。
関連論文リスト
- Hate Speech Detection in Limited Data Contexts using Synthetic Data
Generation [1.9506923346234724]
本稿では,限られたデータコンテキストにおいて,オンラインヘイトスピーチ検出のためのデータ不足の問題に対処するデータ拡張手法を提案する。
対象言語におけるヘイトスピーチデータの新しい例を合成する3つの方法を提案する。
以上の結果から, 合成データを用いたモデルでは, 対象領域で利用可能なサンプルに対してのみ学習したモデルが比較可能であり, 性能が良好である場合も見いだされた。
論文 参考訳(メタデータ) (2023-10-04T15:10:06Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z) - An Information Retrieval Approach to Building Datasets for Hate Speech
Detection [3.587367153279349]
「一般的な慣行は、既知の憎しみの言葉を含むツイートを注釈するだけである。」
第二の課題は、ヘイトスピーチの定義が高度に変動し、主観的である傾向があることである。
我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。
論文 参考訳(メタデータ) (2021-06-17T19:25:39Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。