論文の概要: Overview of the HASOC Subtrack at FIRE 2022: Offensive Language
Identification in Marathi
- arxiv url: http://arxiv.org/abs/2211.10163v1
- Date: Fri, 18 Nov 2022 11:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:48:40.604008
- Title: Overview of the HASOC Subtrack at FIRE 2022: Offensive Language
Identification in Marathi
- Title(参考訳): FIRE 2022におけるHASOCサブトラックの概要:マラタイにおける攻撃的言語識別
- Authors: Tharindu Ranasinghe, Kai North, Damith Premasiri, Marcos Zampieri
- Abstract要約: HASOC(Hate Speech and Offensive Content Identification)共有タスクは、これらのイニシアチブの1つである。
4枚目のバージョンでは、HASOC 2022は英語、ヒンディー語、マラティ語のサブトラックを3曲収録した。
HASOC 2022 Marathi subtrackの結果を報告する。このサブトラックは,一般的なOLID分類法を用いて手動でアノテートしたTwitterのデータを含むデータセットを参加者に提供する。
最高のパフォーマンスアルゴリズムは、伝統的な学習アプローチとディープラーニングアプローチの混合である。
- 参考スコア(独自算出の注目度): 15.466844451996051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread of offensive content online has become a reason for great
concern in recent years, motivating researchers to develop robust systems
capable of identifying such content automatically. With the goal of carrying
out a fair evaluation of these systems, several international competitions have
been organized, providing the community with important benchmark data and
evaluation methods for various languages. Organized since 2019, the HASOC (Hate
Speech and Offensive Content Identification) shared task is one of these
initiatives. In its fourth iteration, HASOC 2022 included three subtracks for
English, Hindi, and Marathi. In this paper, we report the results of the HASOC
2022 Marathi subtrack which provided participants with a dataset containing
data from Twitter manually annotated using the popular OLID taxonomy. The
Marathi track featured three additional subtracks, each corresponding to one
level of the taxonomy: Task A - offensive content identification (offensive vs.
non-offensive); Task B - categorization of offensive types (targeted vs.
untargeted), and Task C - offensive target identification (individual vs. group
vs. others). Overall, 59 runs were submitted by 10 teams. The best systems
obtained an F1 of 0.9745 for Subtrack 3A, an F1 of 0.9207 for Subtrack 3B, and
F1 of 0.9607 for Subtrack 3C. The best performing algorithms were a mixture of
traditional and deep learning approaches.
- Abstract(参考訳): 近年、悪質なコンテンツのオンライン化が大きな関心事となり、研究者がコンテンツを自動的に識別できる堅牢なシステムを開発する動機付けになっている。
これらのシステムを公平に評価することを目的として、いくつかの国際コンペティションが開催され、コミュニティに重要なベンチマークデータと様々な言語の評価方法を提供している。
2019年に組織されたHASOC(Hate Speech and Offensive Content Identification)共有タスクは,これらのイニシアティブのひとつだ。
第4回では、hasoc 2022にはイングリッシュ、ヒンディー語、マラティ語の3つのサブトラックが含まれていた。
本稿では,人気のオリード分類法を用いてtwitterのデータを含むデータセットを参加者に提供するhasoc 2022 marathiサブトラックの結果について報告する。
マラタイのトラックには3つのサブトラックがあり、それぞれが1つの分類レベルに対応する: タスクA - 攻撃的コンテンツ識別(攻撃的対非攻撃的)、タスクB - 攻撃的タイプの分類(標的対未標的)、タスクC - 攻撃的ターゲット識別(個人対グループ対他)。
59試合に出場し、10チームが出場した。
最高のシステムは、Subtrack 3Aで0.9745F1、Subtrack 3Bで0.9207F1、Subtrack 3Cで0.9607F1を得る。
最高のパフォーマンスアルゴリズムは、伝統的な学習アプローチとディープラーニングアプローチの混合である。
関連論文リスト
- Tracking Every Thing in the Wild [61.917043381836656]
我々は,新しい測定基準であるTrack Every Thing Accuracy(TETA)を導入し,測定結果を3つのサブファクター(ローカライゼーション,アソシエーション,分類)に分割する。
実験の結果、TETAはトラッカーをより包括的に評価し、TETerはBDD100KとTAOに挑戦する大規模データセットを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2022-07-26T15:37:19Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu [55.41644538483948]
本研究は、ウルドゥー語で偽ニュースを検出するために、UrduFake@FIRE2021と名付けられた2番目の共有タスクを報告した。
提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用していた。
勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。
論文 参考訳(メタデータ) (2022-07-11T19:15:04Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - Exploiting Semantic Role Contextualized Video Features for
Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [72.12974259966592]
EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022について述べる。
まず、文を動詞や名詞に対応する意味的役割にパースし、自己意図を利用して意味的役割の文脈化されたビデオ特徴を利用する。
論文 参考訳(メタデータ) (2022-06-29T03:24:43Z) - IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for
identification of offensive content in south Indian languages [0.0]
第1タスクはマラヤラムのデータにおける攻撃的内容の特定であり、第2タスクはマラヤラムとタミル・コード混成文を含む。
我がチームは第2タスクに参加した。
提案モデルでは,多言語BERTを用いて特徴抽出を行い,特徴抽出に3つの異なる分類器を用いた。
論文 参考訳(メタデータ) (2022-04-13T06:24:57Z) - Overview of the HASOC Subtrack at FIRE 2021: Hate Speech and Offensive
Content Identification in English and Indo-Aryan Languages [4.267837363677351]
本稿では,英語,ヒンディー語,マラタイ語のHASOCサブトラックについて述べる。
データセットはTwitterから集められた。
タスクAの最良の分類アルゴリズムのパフォーマンスは、マラタイ、ヒンディー語、英語でそれぞれ0.91、0.78、0.83である。
論文 参考訳(メタデータ) (2021-12-17T03:28:54Z) - Overview of the HASOC track at FIRE 2020: Hate Speech and Offensive
Content Identification in Indo-European Languages [2.927129789938848]
HASOCトラックはヒンディー語、ドイツ語、英語向けのHate Speech Detectionアルゴリズムの開発と最適化を目的としている。
データセットはTwitterアーカイブから収集され、機械学習システムによって事前に分類される。
全体では40チーム252本が提出された。タスクAの最良の分類アルゴリズムは、それぞれ英語、ヒンディー語、ドイツ語で0.51本、0.53本、ドイツ語で0.52本である。
論文 参考訳(メタデータ) (2021-08-12T19:02:53Z) - KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text [1.0499611180329804]
本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
論文 参考訳(メタデータ) (2021-02-19T11:08:02Z) - Garain at SemEval-2020 Task 12: Sequence based Deep Learning for
Categorizing Offensive Language in Social Media [3.236217153362305]
SemEval-2020 Task 12: OffenseEval: Multilingual Offensive Language Identification in Social Media (英語)
データセットマクロ全体の25%のトレーニングシステムでは,f1スコアが47.763%であった。
論文 参考訳(メタデータ) (2020-09-02T17:09:29Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。