論文の概要: IIITG-ADBU@HASOC-Dravidian-CodeMix-FIRE2020: Offensive Content Detection
in Code-Mixed Dravidian Text
- arxiv url: http://arxiv.org/abs/2107.14336v1
- Date: Thu, 29 Jul 2021 21:23:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 20:34:14.877023
- Title: IIITG-ADBU@HASOC-Dravidian-CodeMix-FIRE2020: Offensive Content Detection
in Code-Mixed Dravidian Text
- Title(参考訳): IIITG-ADBU@HASOC-Dravidian-CodeMix-FIRE2020: Code-Mixed Dravidian Textにおける攻撃的コンテンツ検出
- Authors: Arup Baruah, Kaushik Amar Das, Ferdous Ahmed Barbhuiya and Kuntal Dey
- Abstract要約: 本稿では,共有タスクDravidian-CodeMix-HASOC 2020におけるSVMとXLM-RoBERTaによる分類結果について述べる。
- 参考スコア(独自算出の注目度): 2.4890053912861654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the results obtained by our SVM and XLM-RoBERTa based
classifiers in the shared task Dravidian-CodeMix-HASOC 2020. The SVM classifier
trained using TF-IDF features of character and word n-grams performed the best
on the code-mixed Malayalam text. It obtained a weighted F1 score of 0.95 (1st
Rank) and 0.76 (3rd Rank) on the YouTube and Twitter dataset respectively. The
XLM-RoBERTa based classifier performed the best on the code-mixed Tamil text.
It obtained a weighted F1 score of 0.87 (3rd Rank) on the code-mixed Tamil
Twitter dataset.
- Abstract(参考訳): 本稿では,共有タスクDravidian-CodeMix-HASOC 2020におけるSVMとXLM-RoBERTaによる分類結果について述べる。
文字と単語n-gramのTF-IDF特徴を用いて訓練されたSVM分類器は、コードミキシングされたマラヤラムテキスト上で最善を尽くした。
YouTubeとTwitterのデータセットでそれぞれ0.95(第1位)と0.76(第3位)の重み付きF1スコアを得た。
XLM-RoBERTa ベースの分類器は、コードミキシングされた Tamil テキストで最善を尽くした。
コードミキシングされたTamil Twitterデータセットの重み付きF1スコアは0.87(3位)だった。
関連論文リスト
- Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。
emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for
identification of offensive content in south Indian languages [0.0]
第1タスクはマラヤラムのデータにおける攻撃的内容の特定であり、第2タスクはマラヤラムとタミル・コード混成文を含む。
我がチームは第2タスクに参加した。
提案モデルでは,多言語BERTを用いて特徴抽出を行い,特徴抽出に3つの異なる分類器を用いた。
論文 参考訳(メタデータ) (2022-04-13T06:24:57Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text [1.0499611180329804]
本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
論文 参考訳(メタデータ) (2021-02-19T11:08:02Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Theedhum Nandrum@Dravidian-CodeMix-FIRE2020: A Sentiment Polarity
Classifier for YouTube Comments with Code-switching between Tamil, Malayalam
and English [0.0]
Theedhum Nandrumは2つのアプローチを用いた感情極性検出システムである。
絵文字の使用、スクリプトの選択、コードミキシングなどの言語機能を使用する。
タミル英語では4位、マラヤラム英語では平均F1得点が0.62、9得点が0.65である。
論文 参考訳(メタデータ) (2020-10-07T05:40:25Z) - Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on
Synthetically Generated Code-Mixed Data for Hate Speech Detection [0.0]
本稿では,ドラヴィダ語におけるHate Speech and Offensive Content Identification in Dravidian Language (Tamil-British and Malayalam-British)について述べる。
このタスクは、ソーシャルメディアから収集されたDravidian言語におけるコメント/ポストのコード混合データセットにおける攻撃的言語を特定することを目的としている。
論文 参考訳(メタデータ) (2020-10-05T15:25:47Z) - Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for
Sentiment and Offensiveness detection in Social Media [2.9008108937701333]
埋め込み、Sentimixのアンサンブルメソッド、OffensEvalタスクをトレーニングします。
我々は、マクロF1スコア、精度、精度、およびデータセットのリコールについて、我々のモデルを評価する。
論文 参考訳(メタデータ) (2020-07-20T11:54:43Z) - Enhanced Universal Dependency Parsing with Second-Order Inference and
Mixture of Training Data [48.8386313914471]
本稿では,テキストIWPT 2020共有タスクに使用するシステムについて述べる。
低リソースのタミルコーパスでは、タミルの訓練データを他の言語と特別に混合し、タミルの性能を大幅に改善する。
論文 参考訳(メタデータ) (2020-06-02T06:42:22Z) - MixText: Linguistically-Informed Interpolation of Hidden Space for
Semi-Supervised Text Classification [68.15015032551214]
MixTextはテキスト分類のための半教師付き学習手法である。
TMixは、隠れた空間でテキストを補間することで、大量の拡張トレーニングサンプルを生成する。
我々は、ラベルなしデータの低エントロピーラベルを推測するために、最近のデータ拡張の進歩を活用している。
論文 参考訳(メタデータ) (2020-04-25T21:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。