論文の概要: Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2103.12412v1
- Date: Tue, 23 Mar 2021 09:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 23:25:39.905585
- Title: Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection
- Title(参考訳): ディープマルチタスク学習を用いたヘイトスピーチ検出のための多領域異種データ活用
- Authors: Prashant Kapil, Asif Ekbal
- Abstract要約: 畳み込みニューラルネットワークに基づくマルチタスク学習モデル(MTL)フットノートコードを提案し,複数のソースからの情報を活用する。
3つのベンチマークデータセットで実施した実証分析は,提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 21.410160004193916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the exponential rise in user-generated web content on social media, the
proliferation of abusive languages towards an individual or a group across the
different sections of the internet is also rapidly increasing. It is very
challenging for human moderators to identify the offensive contents and filter
those out. Deep neural networks have shown promise with reasonable accuracy for
hate speech detection and allied applications. However, the classifiers are
heavily dependent on the size and quality of the training data. Such a
high-quality large data set is not easy to obtain. Moreover, the existing data
sets that have emerged in recent times are not created following the same
annotation guidelines and are often concerned with different types and
sub-types related to hate. To solve this data sparsity problem, and to obtain
more global representative features, we propose a Convolution Neural Network
(CNN) based multi-task learning models (MTLs)\footnote{code is available at
https://github.com/imprasshant/STL-MTL} to leverage information from multiple
sources. Empirical analysis performed on three benchmark datasets shows the
efficacy of the proposed approach with the significant improvement in accuracy
and F-score to obtain state-of-the-art performance with respect to the existing
systems.
- Abstract(参考訳): ソーシャルメディア上のユーザ生成webコンテンツの指数関数的な増加に伴い、インターネットのさまざまなセクションにわたる個人やグループへの乱用言語の普及も急速に増加している。
人間のモデレーターが攻撃内容を特定し、それらをフィルタリングするのは非常に難しい。
ディープニューラルネットワークは、ヘイトスピーチ検出とアライアンスアプリケーションに適切な精度で保証されている。
しかし、分類器はトレーニングデータのサイズと品質に大きく依存している。
このような高品質の大規模データセットは入手が容易ではない。
また、近年出現した既存のデータセットは、同じアノテーションガイドラインに従って作成されておらず、憎悪に関連する異なるタイプやサブタイプに関心を持つことが多い。
このデータの分散化問題を解決するため,CNNに基づくマルチタスク学習モデル(MTLs)\footnote{codeはhttps://github.com/imprasshant/STL-MTL}で利用可能であり,複数の情報源からの情報を活用する。
3つのベンチマークデータセットで行った実証分析では、既存のシステムに対して最先端のパフォーマンスを得るための精度とf-scoreの大幅な改善が提案手法の有効性を示している。
関連論文リスト
- A Unified Multi-Task Learning Architecture for Hate Detection Leveraging User-Based Information [23.017068553977982]
ヘイトスピーチ、攻撃的言語、攻撃性、人種差別、性差別、その他の虐待的言語は、ソーシャルメディアでよく見られる現象である。
ヘイトコンテンツを大規模にフィルタリングする人工知能(AI)ベースの介入が必要である。
本稿では,ユーザ内およびユーザ間情報を活用することで,英語のヘイトスピーチ識別を改善するユニークなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:37:11Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Mutual Information Learned Classifiers: an Information-theoretic
Viewpoint of Training Deep Learning Classification Systems [9.660129425150926]
クロスエントロピー損失は、重度のオーバーフィッティング動作を示すモデルを見つけるのに容易である。
本稿では,既存のDNN分類器のクロスエントロピー損失最小化が,基礎となるデータ分布の条件エントロピーを本質的に学習することを証明する。
ラベルと入力の相互情報を学習することで、DNN分類器を訓練する相互情報学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T15:09:19Z) - Detect Hate Speech in Unseen Domains using Multi-Task Learning: A Case
Study of Political Public Figures [7.52579126252489]
複数のヘイトスピーチデータセットを同時に学習するマルチタスク学習パイプラインを提案する。
列車-テスト分割における一般化誤差を調べる際には強い結果が得られ、以前に見つからなかったデータセットで予測する場合には大幅に改善される。
PubFigsと呼ばれる新しいデータセットも収集し、アメリカ公共政治図の問題点に焦点をあてた。
論文 参考訳(メタデータ) (2022-08-22T21:13:38Z) - Deep invariant networks with differentiable augmentation layers [87.22033101185201]
データ拡張ポリシーの学習方法は、保持データを必要とし、二段階最適化の問題に基づいている。
我々のアプローチは、現代の自動データ拡張技術よりも訓練が簡単で高速であることを示す。
論文 参考訳(メタデータ) (2022-02-04T14:12:31Z) - Character-level HyperNetworks for Hate Speech Detection [3.50640918825436]
ヘイトスピーチ検出の自動化手法は、通常、最先端のディープラーニング(DL)ベースのテキスト分類器を用いる。
本稿では,ハイトスピーチ検出のためのHyperNetworksを提案する。これは,小規模補助ネットワークによって重みが制御される特殊なDLネットワークのクラスである。
我々は最先端の言語モデルに匹敵する、あるいは優れたパフォーマンスを達成し、事前訓練され、桁数は桁違いに大きい。
論文 参考訳(メタデータ) (2021-11-11T17:48:31Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - A study of text representations in Hate Speech Detection [0.0]
ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。
本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
論文 参考訳(メタデータ) (2021-02-08T20:39:17Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。