論文の概要: IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for
identification of offensive content in south Indian languages
- arxiv url: http://arxiv.org/abs/2204.10195v1
- Date: Wed, 13 Apr 2022 06:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 16:55:17.734537
- Title: IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for
identification of offensive content in south Indian languages
- Title(参考訳): IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERTによる南インドの言語における攻撃的内容の同定
- Authors: Shankar Biradar, Sunil Saumya
- Abstract要約: 第1タスクはマラヤラムのデータにおける攻撃的内容の特定であり、第2タスクはマラヤラムとタミル・コード混成文を含む。
我がチームは第2タスクに参加した。
提案モデルでは,多言語BERTを用いて特徴抽出を行い,特徴抽出に3つの異なる分類器を用いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been a lot of focus on offensive content. The
amount of offensive content generated by social media is increasing at an
alarming rate. This created a greater need to address this issue than ever
before. To address these issues, the organizers of "Dravidian-Code Mixed
HASOC-2020" have created two challenges. Task 1 involves identifying offensive
content in Malayalam data, whereas Task 2 includes Malayalam and Tamil Code
Mixed Sentences. Our team participated in Task 2. In our suggested model, we
experiment with multilingual BERT to extract features, and three different
classifiers are used on extracted features. Our model received a weighted F1
score of 0.70 for Malayalam data and was ranked fifth; we also received a
weighted F1 score of 0.573 for Tamil Code Mixed data and were ranked eleventh.
- Abstract(参考訳): 近年、攻撃的なコンテンツに多くの焦点が当てられている。
ソーシャルメディアが生み出す攻撃的コンテンツの量は、警戒速度で増加している。
これにより、これまで以上にこの問題に対処する必要が生じた。
これらの問題に対処するため、"Dravidian-Code Mixed HASOC-2020"の主催者が2つの課題を生み出した。
タスク1はマラヤラム語データにおける攻撃的コンテンツの識別を伴い、タスク2はマラヤラム語とタミル語の混成文を含む。
私たちのチームはタスク2に参加しました。
提案モデルでは,多言語BERTを用いて特徴抽出を行い,特徴抽出に3つの異なる分類器を用いた。
モデルは,マラヤラムデータで0.70の重み付きf1スコアを,5位に,タミル符号混合データでは0.573の重み付きf1スコアを,11位にランク付けした。
関連論文リスト
- ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文 参考訳(メタデータ) (2022-10-18T07:22:29Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - PSG@HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for
Offensive Language Identification in Tanglish [0.0]
本稿では,Dravidian-Codemix-HASOC2021: Hate Speech and Offensive Language Identification in Dravidian Languageについて述べる。
本課題は,ソーシャルメディアから収集したDravidian言語における,コードミキシングされたコメント・ポスト中の攻撃的コンテンツを特定することを目的とする。
論文 参考訳(メタデータ) (2021-10-06T15:23:40Z) - KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text [1.0499611180329804]
本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
論文 参考訳(メタデータ) (2021-02-19T11:08:02Z) - indicnlp@kgp at DravidianLangTech-EACL2021: Offensive Language
Identification in Dravidian Languages [0.0]
この論文は、チーム indicnlp@kgp の EACL 2021 共有タスク「ドラヴィディアン言語における言語識別効果」への提出を提示する。
このタスクは、異なる攻撃的コンテンツタイプを3つのコード混合Dravidian言語データセットに分類することを目的としている。
マラヤラム英語,タミル英語,カナダ英語のデータセットでは,平均F1スコア0.97,0.77,0.72が達成された。
論文 参考訳(メタデータ) (2021-02-14T13:24:01Z) - WLV-RIT at HASOC-Dravidian-CodeMix-FIRE2020: Offensive Language
Identification in Code-switched YouTube Comments [16.938836887702923]
本稿では,インド・ヨーロッパ語におけるHate Speech and Offensive Content IdentificationのWLV-RITエントリについて述べる。
HASOC 2020の主催者は、ドラヴィダ語(マラヤラム語とタミル語)で混在するコードのソーシャルメディア投稿を含むデータセットを参加者に提供した。
テストセットの平均F1スコアは89.89で,12名中5位にランクインした。
論文 参考訳(メタデータ) (2020-11-01T16:52:08Z) - Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on
Synthetically Generated Code-Mixed Data for Hate Speech Detection [0.0]
本稿では,ドラヴィダ語におけるHate Speech and Offensive Content Identification in Dravidian Language (Tamil-British and Malayalam-British)について述べる。
このタスクは、ソーシャルメディアから収集されたDravidian言語におけるコメント/ポストのコード混合データセットにおける攻撃的言語を特定することを目的としている。
論文 参考訳(メタデータ) (2020-10-05T15:25:47Z) - Enhanced Universal Dependency Parsing with Second-Order Inference and
Mixture of Training Data [48.8386313914471]
本稿では,テキストIWPT 2020共有タスクに使用するシステムについて述べる。
低リソースのタミルコーパスでは、タミルの訓練データを他の言語と特別に混合し、タミルの性能を大幅に改善する。
論文 参考訳(メタデータ) (2020-06-02T06:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。