Fugu-MT 論文翻訳(概要): IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for identification of offensive content in south Indian languages

論文の概要: IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for identification of offensive content in south Indian languages

arxiv url: http://arxiv.org/abs/2204.10195v1
Date: Wed, 13 Apr 2022 06:24:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-24 16:55:17.734537
Title: IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for identification of offensive content in south Indian languages
Title（参考訳）: IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERTによる南インドの言語における攻撃的内容の同定
Authors: Shankar Biradar, Sunil Saumya
Abstract要約: 第1タスクはマラヤラムのデータにおける攻撃的内容の特定であり、第2タスクはマラヤラムとタミル・コード混成文を含む。我がチームは第2タスクに参加した。提案モデルでは,多言語BERTを用いて特徴抽出を行い,特徴抽出に3つの異なる分類器を用いた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, there has been a lot of focus on offensive content. The amount of offensive content generated by social media is increasing at an alarming rate. This created a greater need to address this issue than ever before. To address these issues, the organizers of "Dravidian-Code Mixed HASOC-2020" have created two challenges. Task 1 involves identifying offensive content in Malayalam data, whereas Task 2 includes Malayalam and Tamil Code Mixed Sentences. Our team participated in Task 2. In our suggested model, we experiment with multilingual BERT to extract features, and three different classifiers are used on extracted features. Our model received a weighted F1 score of 0.70 for Malayalam data and was ranked fifth; we also received a weighted F1 score of 0.573 for Tamil Code Mixed data and were ranked eleventh.
Abstract（参考訳）: 近年、攻撃的なコンテンツに多くの焦点が当てられている。ソーシャルメディアが生み出す攻撃的コンテンツの量は、警戒速度で増加している。これにより、これまで以上にこの問題に対処する必要が生じた。これらの問題に対処するため、"Dravidian-Code Mixed HASOC-2020"の主催者が2つの課題を生み出した。タスク1はマラヤラム語データにおける攻撃的コンテンツの識別を伴い、タスク2はマラヤラム語とタミル語の混成文を含む。私たちのチームはタスク2に参加しました。提案モデルでは,多言語BERTを用いて特徴抽出を行い,特徴抽出に3つの異なる分類器を用いた。モデルは,マラヤラムデータで0.70の重み付きf1スコアを,5位に,タミル符号混合データでは0.573の重み付きf1スコアを,11位にランク付けした。

関連論文リスト

ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。 BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文参考訳（メタデータ） (2024-04-30T17:06:20Z)
Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。 BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。 ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文参考訳（メタデータ） (2023-03-23T18:16:30Z)
AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文参考訳（メタデータ） (2023-02-17T15:40:12Z)
Transformer-based Model for Word Level Language Identification in Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。 The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文参考訳（メタデータ） (2022-11-26T02:39:19Z)
Tencent's Multilingual Machine Translation System for WMT22 Large-Scale African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文参考訳（メタデータ） (2022-10-18T07:22:29Z)
Overview of Abusive and Threatening Language Detection in Urdu at FIRE 2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文参考訳（メタデータ） (2022-07-14T07:38:13Z)
PSG@HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for Offensive Language Identification in Tanglish [0.0]
本稿では,Dravidian-Codemix-HASOC2021: Hate Speech and Offensive Language Identification in Dravidian Languageについて述べる。本課題は,ソーシャルメディアから収集したDravidian言語における,コードミキシングされたコメント・ポスト中の攻撃的コンテンツを特定することを目的とする。
論文参考訳（メタデータ） (2021-10-06T15:23:40Z)
KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for Detection of Hate Speech and Offensive Code-Mixed Social Media text [1.0499611180329804]
本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。 2つのドラヴィディアン言語Vizのデータセット。サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
論文参考訳（メタデータ） (2021-02-19T11:08:02Z)
indicnlp@kgp at DravidianLangTech-EACL2021: Offensive Language Identification in Dravidian Languages [0.0]
この論文は、チーム indicnlp@kgp の EACL 2021 共有タスク「ドラヴィディアン言語における言語識別効果」への提出を提示する。このタスクは、異なる攻撃的コンテンツタイプを3つのコード混合Dravidian言語データセットに分類することを目的としている。マラヤラム英語,タミル英語,カナダ英語のデータセットでは,平均F1スコア0.97,0.77,0.72が達成された。
論文参考訳（メタデータ） (2021-02-14T13:24:01Z)
WLV-RIT at HASOC-Dravidian-CodeMix-FIRE2020: Offensive Language Identification in Code-switched YouTube Comments [16.938836887702923]
本稿では,インド・ヨーロッパ語におけるHate Speech and Offensive Content IdentificationのWLV-RITエントリについて述べる。 HASOC 2020の主催者は、ドラヴィダ語(マラヤラム語とタミル語)で混在するコードのソーシャルメディア投稿を含むデータセットを参加者に提供した。テストセットの平均F1スコアは89.89で,12名中5位にランクインした。
論文参考訳（メタデータ） (2020-11-01T16:52:08Z)
Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on Synthetically Generated Code-Mixed Data for Hate Speech Detection [0.0]
本稿では,ドラヴィダ語におけるHate Speech and Offensive Content Identification in Dravidian Language (Tamil-British and Malayalam-British)について述べる。このタスクは、ソーシャルメディアから収集されたDravidian言語におけるコメント/ポストのコード混合データセットにおける攻撃的言語を特定することを目的としている。
論文参考訳（メタデータ） (2020-10-05T15:25:47Z)
Enhanced Universal Dependency Parsing with Second-Order Inference and Mixture of Training Data [48.8386313914471]
本稿では,テキストIWPT 2020共有タスクに使用するシステムについて述べる。低リソースのタミルコーパスでは、タミルの訓練データを他の言語と特別に混合し、タミルの性能を大幅に改善する。
論文参考訳（メタデータ） (2020-06-02T06:42:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。