論文の概要: Divide and Conquer: An Ensemble Approach for Hostile Post Detection in
Hindi
- arxiv url: http://arxiv.org/abs/2101.07973v1
- Date: Wed, 20 Jan 2021 05:38:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:29:10.823665
- Title: Divide and Conquer: An Ensemble Approach for Hostile Post Detection in
Hindi
- Title(参考訳): ディバイドとコンカー:ヒンディー語における宿主検出のためのアンサンブルアプローチ
- Authors: Varad Bhatnagar, Prince Kumar, Sairam Moghili and Pushpak
Bhattacharyya
- Abstract要約: このタスクのデータは、twitterとfacebookから収集されたhindi devanagariスクリプトで提供される。
マルチラベルのマルチクラス分類問題であり、各データインスタンスは、偽物、憎悪、攻撃、中傷、非敵意の5つのクラスのうち1つまたはそれ以上にアノテートされる。
私たちのチーム「Albatross」は、ヒンディー語のサブタスクでHostile Post Detectionで0.9709粗末な敵意F1スコアを達成し、タスクのために45チーム中2位を確保しました。
- 参考スコア(独自算出の注目度): 25.723773314371947
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently the NLP community has started showing interest towards the
challenging task of Hostile Post Detection. This paper present our system for
Shared Task at Constraint2021 on "Hostile Post Detection in Hindi". The data
for this shared task is provided in Hindi Devanagari script which was collected
from Twitter and Facebook. It is a multi-label multi-class classification
problem where each data instance is annotated into one or more of the five
classes: fake, hate, offensive, defamation, and non-hostile. We propose a two
level architecture which is made up of BERT based classifiers and statistical
classifiers to solve this problem. Our team 'Albatross', scored 0.9709 Coarse
grained hostility F1 score measure on Hostile Post Detection in Hindi subtask
and secured 2nd rank out of 45 teams for the task. Our submission is ranked 2nd
and 3rd out of a total of 156 submissions with Coarse grained hostility F1
score of 0.9709 and 0.9703 respectively. Our fine grained scores are also very
encouraging and can be improved with further finetuning. The code is publicly
available.
- Abstract(参考訳): 最近、NLPコミュニティは、ホストポスト検出の困難なタスクに関心を示し始めている。
本稿では,HindiにおけるHostile Post Detectionについて,Constraint2021における共有タスクシステムを提案する。
この共有タスクのデータは、twitterとfacebookから収集されたhindi devanagariスクリプトで提供される。
これは、各データインスタンスがフェイク、ヘイト、攻撃、破壊、非敵対の5つのクラスのうちの1つまたはそれ以上に注釈付けされるマルチラベルのマルチクラス分類問題である。
この問題を解決するために,bertベースの分類器と統計分類器からなる2階層アーキテクチャを提案する。
私たちのチームである"Albatross"は,ヒンディー語サブタスクにおける宿主ポスト検出において,粗い敵意F1スコアを0.9709点獲得し,45チーム中2位を確保しました。
我々の応募は156件中2位と3位にランクされ、それぞれ0.9709点と0.9703点の粗い敵意F1点が与えられた。
きめ細かいスコアも非常に有益で、さらに微調整することで改善できます。
コードは公開されている。
関連論文リスト
- ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu [55.41644538483948]
本研究は、ウルドゥー語で偽ニュースを検出するために、UrduFake@FIRE2021と名付けられた2番目の共有タスクを報告した。
提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用していた。
勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。
論文 参考訳(メタデータ) (2022-07-11T19:15:04Z) - Walk in Wild: An Ensemble Approach for Hostility Detection in Hindi
Posts [3.9373541926236766]
我々は,事前学習したmBERTと,ニューラルネットワーク(ANN)やXGBoostなどの一般的な分類アルゴリズムに基づいて,ヒンディー語投稿の敵意検出のための簡単なアンサンブルモデルを構築した。
コンペティションの総合順位は0.969, 重み付きf1スコアは0.961で, それぞれ2段分類と多段分類タスクで3位であった。
論文 参考訳(メタデータ) (2021-01-15T07:49:27Z) - Hostility Detection in Hindi leveraging Pre-Trained Language Models [1.6436293069942312]
本稿では,Hindi Devanagariスクリプトのソーシャルメディア投稿をHostile or Non-Hostileとして分類するためのトランスファーラーニングに基づくアプローチを提案する。
敵の投稿はさらに分析され、憎しみ、フェイク、デファメーション、攻撃的かどうかが判断される。
アンサンブルや複雑な前処理なしに、堅牢で一貫したモデルを確立します。
論文 参考訳(メタデータ) (2021-01-14T08:04:32Z) - LaDiff ULMFiT: A Layer Differentiated training approach for ULMFiT [0.0]
事前に訓練したUMMFiT arXiv:1801.06146モデルを訓練するためのレイヤ別トレーニング手順を提案する。
特別なトークンを使用してツイートの特定の部分をアノテートし、言語理解を改善し、モデルに関する洞察を得ました。
提案手法は、サブタスク「COVID19 Fake News Detection in English」で164人中61位にランクインした。
論文 参考訳(メタデータ) (2021-01-13T09:52:04Z) - Detecting Hostile Posts using Relational Graph Convolutional Network [1.8734449181723827]
この研究は、ソーシャルメディアプラットフォーム上でヒンディー語で敵対的な投稿を検出するためにAAAI@2021が実施したコンテストへの提出に基づいている。
ここでは,畳み込みネットワークを用いた敵対的ポスト分類のためのモデルを提案する。
提案されたモデルは、与えられたデータセット上のGoogleのXLM-RoBERTaと同等に実行されている。
XLMRobertaを用いた分類システムでは, 細粒度分類では2位であった。
論文 参考訳(メタデータ) (2021-01-10T06:50:22Z) - Combating Hostility: Covid-19 Fake News and Hostile Post Detection in
Social Media [0.0]
本稿では,AAAI-2021におけるConSTRAINT共有タスクへの参加の一環として開発されたシステムとその成果について詳述する。
SVM, CNN, BiLSTM, CNN+BiLSTM など, tf-idf と Word2Vec を組み込んだ様々な手法を用いて分類処理を行う。
論文 参考訳(メタデータ) (2021-01-09T05:15:41Z) - Hostility Detection Dataset in Hindi [44.221862384125245]
ヒンディー語で8200のオンライン投稿を手作業で収集し、注釈付けします。
データセットは、敵対的なクラス間で大きな重複があるため、マルチラベルタグとして考慮されている。
論文 参考訳(メタデータ) (2020-11-06T20:33:12Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。