論文の概要: QutNocturnal@HASOC'19: CNN for Hate Speech and Offensive Content
Identification in Hindi Language
- arxiv url: http://arxiv.org/abs/2008.12448v1
- Date: Fri, 28 Aug 2020 02:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:37:09.320045
- Title: QutNocturnal@HASOC'19: CNN for Hate Speech and Offensive Content
Identification in Hindi Language
- Title(参考訳): QutNocturnal@HASOC'19:ヒンディー語におけるヘイトスピーチと攻撃的内容同定のためのCNN
- Authors: Md Abul Bashar, Richi Nayak
- Abstract要約: その任務はヒンディー語におけるヘイトスピーチと攻撃的な言語を特定することである。
我々は、事前訓練された単語ベクトルの上に畳み込みニューラルネットワーク(CNN)を訓練した。
このアプローチによって、このタスクをすべてのチームの中で最初にランク付けできるようになりました。
- 参考スコア(独自算出の注目度): 1.9290392443571387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our top-team solution to Task 1 for Hindi in the HASOC contest
organised by FIRE 2019. The task is to identify hate speech and offensive
language in Hindi. More specifically, it is a binary classification problem
where a system is required to classify tweets into two classes: (a) \emph{Hate
and Offensive (HOF)} and (b) \emph{Not Hate or Offensive (NOT)}. In contrast to
the popular idea of pretraining word vectors (a.k.a. word embedding) with a
large corpus from a general domain such as Wikipedia, we used a relatively
small collection of relevant tweets (i.e. random and sarcasm tweets in Hindi
and Hinglish) for pretraining. We trained a Convolutional Neural Network (CNN)
on top of the pretrained word vectors. This approach allowed us to be ranked
first for this task out of all teams. Our approach could easily be adapted to
other applications where the goal is to predict class of a text when the
provided context is limited.
- Abstract(参考訳): FIRE 2019が主催したHASOCコンテストで,Hindiのタスク1に対するトップチームソリューションについて説明する。
タスクはヒンディー語におけるヘイトスピーチと攻撃言語を特定することである。
より具体的には、システムがツイートを2つのクラスに分類する必要があるバイナリ分類の問題である。
a) \emph{Hate and Offensive (HOF) および
(b) 「憎しみも嫌わない(not hate)」。
wikipediaのような一般的なドメインから大きなコーパスで単語ベクトル(すなわち単語埋め込み)を事前学習するという一般的な考えとは対照的に、比較的小さな関連ツイート(ヒンズー語やヒンズー語でランダムなツイートや皮肉のツイート)を事前学習に使用した。
我々は、事前訓練された単語ベクトルの上に畳み込みニューラルネットワーク(CNN)を訓練した。
このアプローチによって、このタスクをすべてのチームの中で最初にランク付けできるようになりました。
我々のアプローチは、提供されたコンテキストが制限されたときにテキストのクラスを予測することを目標とする他のアプリケーションにも容易に適用できます。
関連論文リスト
- Segment and Caption Anything [126.20201216616137]
本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
論文 参考訳(メタデータ) (2023-12-01T19:00:17Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - AlexU-AIC at Arabic Hate Speech 2022: Contrast to Classify [2.9220076568786326]
アラビア・ヘイトスピーチ2022共有タスクワークショップ(OSACT52022)に、関連するアラビア・Twitterデータセットを用いて提出する。
攻撃的なツイートに関しては、サブタスクBは、ツイートがヘイトスピーチであるか否かを検出することに焦点を当てている。
ヘイトスピーチのつぶやきに対して、サブタスクCは6つの異なるクラス間のきめ細かいタイプのヘイトスピーチを検出することに重点を置いている。
論文 参考訳(メタデータ) (2022-07-18T12:33:51Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文 参考訳(メタデータ) (2021-12-18T19:27:33Z) - Overview of the HASOC track at FIRE 2020: Hate Speech and Offensive
Content Identification in Indo-European Languages [2.927129789938848]
HASOCトラックはヒンディー語、ドイツ語、英語向けのHate Speech Detectionアルゴリズムの開発と最適化を目的としている。
データセットはTwitterアーカイブから収集され、機械学習システムによって事前に分類される。
全体では40チーム252本が提出された。タスクAの最良の分類アルゴリズムは、それぞれ英語、ヒンディー語、ドイツ語で0.51本、0.53本、ドイツ語で0.52本である。
論文 参考訳(メタデータ) (2021-08-12T19:02:53Z) - Identifying and Categorizing Offensive Language in Social Media [0.0]
本研究は,SemEval 2019 Task 6: OffensEval用に構築された分類システムについて述べる。
私たちは、最良の結果を得るために、機械学習とディープラーニングモデルとデータ前処理とサンプリングテクニックをトレーニングしました。
論文 参考訳(メタデータ) (2021-04-10T22:53:43Z) - CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language
from ManglishTweets [0.0]
本稿では,HASOC 攻撃言語識別-DravidianCodeMix のサブトラックである Task2 に提案する作業モデルを提案する。
これはメッセージレベルの分類タスクです。
埋め込みモデルに基づく分類器は、我々のアプローチにおける攻撃的コメントではなく攻撃的コメントを識別する。
論文 参考訳(メタデータ) (2020-10-17T10:11:41Z) - Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。
私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。
これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文 参考訳(メタデータ) (2020-05-18T06:04:58Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。