論文の概要: A Survey of Machine Learning Models and Datasets for the Multi-label Classification of Textual Hate Speech in English
- arxiv url: http://arxiv.org/abs/2504.08609v1
- Date: Fri, 11 Apr 2025 15:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:11.416303
- Title: A Survey of Machine Learning Models and Datasets for the Multi-label Classification of Textual Hate Speech in English
- Title(参考訳): 英語におけるテキストヘイト音声のマルチラベル分類のための機械学習モデルとデータセットの検討
- Authors: Julian Bäumler, Louis Blöcher, Lars-Joel Frey, Xian Chen, Markus Bayer, Christian Reuter,
- Abstract要約: この研究は、英語におけるこの新たな研究の展望について、科学文献の体系的および包括的調査を行った最初のものである。
マルチラベル分類モデルのトレーニングに適した28のデータセットを簡潔に概説する。
不均衡なトレーニングデータ、クラウドソーシングプラットフォームへの依存、小規模でスパースなデータセット、方法論的アライメントの欠如を識別する。
- 参考スコア(独自算出の注目度): 3.216132991084434
- License:
- Abstract: The dissemination of online hate speech can have serious negative consequences for individuals, online communities, and entire societies. This and the large volume of hateful online content prompted both practitioners', i.e., in content moderation or law enforcement, and researchers' interest in machine learning models to automatically classify instances of hate speech. Whereas most scientific works address hate speech classification as a binary task, practice often requires a differentiation into sub-types, e.g., according to target, severity, or legality, which may overlap for individual content. Hence, researchers created datasets and machine learning models that approach hate speech classification in textual data as a multi-label problem. This work presents the first systematic and comprehensive survey of scientific literature on this emerging research landscape in English (N=46). We contribute with a concise overview of 28 datasets suited for training multi-label classification models that reveals significant heterogeneity regarding label-set, size, meta-concept, annotation process, and inter-annotator agreement. Our analysis of 24 publications proposing suitable classification models further establishes inconsistency in evaluation and a preference for architectures based on Bidirectional Encoder Representation from Transformers (BERT) and Recurrent Neural Networks (RNNs). We identify imbalanced training data, reliance on crowdsourcing platforms, small and sparse datasets, and missing methodological alignment as critical open issues and formulate ten recommendations for research.
- Abstract(参考訳): オンラインヘイトスピーチの普及は、個人、オンラインコミュニティ、そして社会全体に深刻なネガティブな結果をもたらす可能性がある。
この大量のヘイトフルなオンラインコンテンツは、コンテンツモデレーションや法執行における実践者の関心や、ヘイトスピーチのインスタンスを自動分類する機械学習モデルに対する研究者の関心を喚起した。
ほとんどの科学的研究は、ヘイトスピーチの分類をバイナリータスクとして扱うが、実践では、ターゲット、重大さ、合法性に応じてサブタイプ、例えば、個別のコンテンツに重複する可能性があるサブタイプに分化する必要がある。
そこで研究者たちは、テキストデータのヘイトスピーチ分類をマルチラベル問題としてアプローチするデータセットと機械学習モデルを開発した。
この研究は、英語におけるこの新たな研究状況に関する、科学文献の体系的および包括的調査(N=46)を初めて提示する。
ラベルセット,サイズ,メタコンセプト,アノテーションプロセス,アノテーション間の合意に関する重要な異質性を明らかにするマルチラベル分類モデルのトレーニングに適した28のデータセットの簡潔な概要に貢献する。
適切な分類モデルを提案する24の出版物の分析により,変換器からの双方向エンコーダ表現(BERT)とリカレントニューラルネットワーク(RNN)に基づくアーキテクチャに対する不整合がさらに確立される。
不均衡なトレーニングデータ、クラウドソーシングプラットフォームへの依存、小規模でスパースなデータセット、方法論的アライメントの欠如を重要なオープン問題として認識し、研究のための10の推奨事項を定式化する。
関連論文リスト
- Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Generalizing Hate Speech Detection Using Multi-Task Learning: A Case Study of Political Public Figures [3.825159708387601]
本研究では,複数のヘイトスピーチデータセットを同時に学習するマルチタスク学習パイプラインを提案する。
列車-テスト分割における一般化誤差を調べる際には強い結果が得られ、これまで見つからなかったデータセットの予測では大幅に改善された。
論文 参考訳(メタデータ) (2022-08-22T21:13:38Z) - Improved two-stage hate speech classification for twitter based on Deep
Neural Networks [0.0]
ヘイトスピーチ(Hate speech)は、虐待的な言葉の使用を含む、オンラインハラスメントの一種である。
この研究で提案するモデルは、LSTMニューラルネットワークアーキテクチャに基づく既存のアプローチの拡張である。
本研究は,16kツイートの公開コーパスで評価された2段階目の提案手法の性能比較を含む。
論文 参考訳(メタデータ) (2022-06-08T20:57:41Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。