論文の概要: Hostility Detection Dataset in Hindi
- arxiv url: http://arxiv.org/abs/2011.03588v1
- Date: Fri, 6 Nov 2020 20:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:59:25.567071
- Title: Hostility Detection Dataset in Hindi
- Title(参考訳): ヒンディー語における敵意検出データセット
- Authors: Mohit Bhardwaj, Md Shad Akhtar, Asif Ekbal, Amitava Das, Tanmoy
Chakraborty
- Abstract要約: ヒンディー語で8200のオンライン投稿を手作業で収集し、注釈付けします。
データセットは、敵対的なクラス間で大きな重複があるため、マルチラベルタグとして考慮されている。
- 参考スコア(独自算出の注目度): 44.221862384125245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel hostility detection dataset in Hindi
language. We collect and manually annotate ~8200 online posts. The annotated
dataset covers four hostility dimensions: fake news, hate speech, offensive,
and defamation posts, along with a non-hostile label. The hostile posts are
also considered for multi-label tags due to a significant overlap among the
hostile classes. We release this dataset as part of the CONSTRAINT-2021 shared
task on hostile post detection.
- Abstract(参考訳): 本稿では,ヒンディー語における新たな敵意検出データセットを提案する。
8200のオンライン投稿を手作業で収集して注釈付けします。
注釈付きデータセットには、フェイクニュース、ヘイトスピーチ、攻撃的、および破壊的投稿の4つの敵意の次元と非敵対的なラベルが含まれている。
敵対的な投稿は、敵対的なクラス間で大きな重複があるため、マルチラベルタグにも考慮されている。
本データセットは,conSTRAINT-2021共有タスクの一部として,敵対的なポスト検出を行う。
関連論文リスト
- Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech
Detection Dataset [0.0]
「AraCOVID19-MFH」は、アラビア・COVID-19の偽ニュースとヘイトスピーチ検出データセットを手動で注釈付けしたものである。
当社のデータセットには、10の異なるラベルで注釈付けされた10,828のアラビア語ツイートが含まれています。
ヘイトスピーチの検出、意見/ニュースの分類、方言の識別、その他多くのタスクにも使用できる。
論文 参考訳(メタデータ) (2021-05-07T09:52:44Z) - Divide and Conquer: An Ensemble Approach for Hostile Post Detection in
Hindi [25.723773314371947]
このタスクのデータは、twitterとfacebookから収集されたhindi devanagariスクリプトで提供される。
マルチラベルのマルチクラス分類問題であり、各データインスタンスは、偽物、憎悪、攻撃、中傷、非敵意の5つのクラスのうち1つまたはそれ以上にアノテートされる。
私たちのチーム「Albatross」は、ヒンディー語のサブタスクでHostile Post Detectionで0.9709粗末な敵意F1スコアを達成し、タスクのために45チーム中2位を確保しました。
論文 参考訳(メタデータ) (2021-01-20T05:38:07Z) - Hostility Detection in Hindi leveraging Pre-Trained Language Models [1.6436293069942312]
本稿では,Hindi Devanagariスクリプトのソーシャルメディア投稿をHostile or Non-Hostileとして分類するためのトランスファーラーニングに基づくアプローチを提案する。
敵の投稿はさらに分析され、憎しみ、フェイク、デファメーション、攻撃的かどうかが判断される。
アンサンブルや複雑な前処理なしに、堅牢で一貫したモデルを確立します。
論文 参考訳(メタデータ) (2021-01-14T08:04:32Z) - Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine
Tuned Multilingual Embeddings [4.3012765978447565]
敵意検出タスクは、英語のようなリソースに富む言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。
ヒンディー語投稿における敵意検出に有効なニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-01-13T11:00:31Z) - Evaluation of Deep Learning Models for Hostility Detection in Hindi Text [2.572404739180802]
ヒンディー語における敵対的テキスト検出手法を提案する。
提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。
この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
論文 参考訳(メタデータ) (2021-01-11T19:10:57Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。