論文の概要: KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text
- arxiv url: http://arxiv.org/abs/2102.09866v1
- Date: Fri, 19 Feb 2021 11:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:38:46.542433
- Title: KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text
- Title(参考訳): KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Machine Learning for Detection of Hate Speech and Offensive Code-Mixed Social Media text (英語)
- Authors: Varsha Pathak, Manish Joshi, Prasad Joshi, Monica Mundada and Tanmay
Joshi
- Abstract要約: 本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes the system submitted by our team, KBCNMUJAL, for Task 2
of the shared task Hate Speech and Offensive Content Identification in
Indo-European Languages (HASOC), at Forum for Information Retrieval Evaluation,
December 16-20, 2020, Hyderabad, India. The datasets of two Dravidian languages
Viz. Malayalam and Tamil of size 4000 observations, each were shared by the
HASOC organizers. These datasets are used to train the machine using different
machine learning algorithms, based on classification and regression models. The
datasets consist of tweets or YouTube comments with two class labels offensive
and not offensive. The machine is trained to classify such social media
messages in these two categories. Appropriate n-gram feature sets are extracted
to learn the specific characteristics of the Hate Speech text messages. These
feature models are based on TFIDF weights of n-gram. The referred work and
respective experiments show that the features such as word, character and
combined model of word and character n-grams could be used to identify the term
patterns of offensive text contents. As a part of the HASOC shared task, the
test data sets are made available by the HASOC track organizers. The best
performing classification models developed for both languages are applied on
test datasets. The model which gives the highest accuracy result on training
dataset for Malayalam language was experimented to predict the categories of
respective test data. This system has obtained an F1 score of 0.77. Similarly
the best performing model for Tamil language has obtained an F1 score of 0.87.
This work has received 2nd and 3rd rank in this shared Task 2 for Malayalam and
Tamil language respectively. The proposed system is named HASOC_kbcnmujal.
- Abstract(参考訳): 本論文では,2020年12月16-20日にインド・ハイデラバードで開催された情報検索評価フォーラムにおいて,Hate Speech and Offensive Content Identification in Indo-European Languages (HASOC) のタスク2について,当社のチームであるKBCNMUJALが提出したシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
これらのデータセットは、分類と回帰モデルに基づいて、異なる機械学習アルゴリズムを使用してマシンを訓練するために使用される。
データセットは、ツイートまたはyoutubeコメントから成り、2つのクラスラベルが攻撃的であり、攻撃的ではない。
このマシンは、これらの2つのカテゴリーのソーシャルメディアメッセージを分類するように訓練されている。
適切なn-gram機能セットを抽出し、Hate Speechテキストメッセージの特定の特性を学びます。
これらの特徴モデルはn-gramのtfidf重みに基づいている。
提案した研究および各実験により, 単語, 文字, 単語, 文字n-gramの組合せモデルなどの特徴が, 攻撃的テキスト内容の用語パターンの同定に有用であることが示唆された。
HASOC共有タスクの一環として、テストデータセットはHASOCトラックオーガナイザーによって利用できるようになります。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
Malayalam言語のトレーニングデータセットに最も正確な結果を与えるモデルは、各テストデータのカテゴリを予測するために実験された。
このシステムはF1スコアが0.77である。
同様に、タミル語の最高のパフォーマンスモデルはF1スコア0.87を得た。
この作業は、それぞれマラヤラム語とタミル語の共有タスク2で2位と3位にランクされている。
提案システムはHASOC_kbcnmujalと命名される。
関連論文リスト
- cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media
Comments using Spatio-Temporally Retrained Language Models [0.9012198585960441]
本稿ではLTERAN@LP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。
我々は、BERTに基づく言語モデルを用いて、5つの言語条件におけるソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。
重み付きマクロ平均F1スコアに基づくマラヤラムの7ラベル分類システムを開発した。
論文 参考訳(メタデータ) (2023-08-20T21:30:34Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - PSG@HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for
Offensive Language Identification in Tanglish [0.0]
本稿では,Dravidian-Codemix-HASOC2021: Hate Speech and Offensive Language Identification in Dravidian Languageについて述べる。
本課題は,ソーシャルメディアから収集したDravidian言語における,コードミキシングされたコメント・ポスト中の攻撃的コンテンツを特定することを目的とする。
論文 参考訳(メタデータ) (2021-10-06T15:23:40Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - indicnlp@kgp at DravidianLangTech-EACL2021: Offensive Language
Identification in Dravidian Languages [0.0]
この論文は、チーム indicnlp@kgp の EACL 2021 共有タスク「ドラヴィディアン言語における言語識別効果」への提出を提示する。
このタスクは、異なる攻撃的コンテンツタイプを3つのコード混合Dravidian言語データセットに分類することを目的としている。
マラヤラム英語,タミル英語,カナダ英語のデータセットでは,平均F1スコア0.97,0.77,0.72が達成された。
論文 参考訳(メタデータ) (2021-02-14T13:24:01Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on
Synthetically Generated Code-Mixed Data for Hate Speech Detection [0.0]
本稿では,ドラヴィダ語におけるHate Speech and Offensive Content Identification in Dravidian Language (Tamil-British and Malayalam-British)について述べる。
このタスクは、ソーシャルメディアから収集されたDravidian言語におけるコメント/ポストのコード混合データセットにおける攻撃的言語を特定することを目的としている。
論文 参考訳(メタデータ) (2020-10-05T15:25:47Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。