論文の概要: Optimize_Prime@DravidianLangTech-ACL2022: Abusive Comment Detection in
Tamil
- arxiv url: http://arxiv.org/abs/2204.09675v1
- Date: Tue, 19 Apr 2022 18:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 12:54:34.978432
- Title: Optimize_Prime@DravidianLangTech-ACL2022: Abusive Comment Detection in
Tamil
- Title(参考訳): optimize_prime@dravidianlangtech-acl2022: タミルにおける悪質なコメント検出
- Authors: Shantanu Patankar, Omkar Gokhale, Onkar Litake, Aditya Mandke, Dipali
Kadam
- Abstract要約: 本稿では,低リソースのインデックス言語における乱用コメント検出の問題に対処する。
このタスクは、タミル語とタミル英語のCodemixedフォーマットでYouTubeのコメントを検出して分類する。
- 参考スコア(独自算出の注目度): 1.0066310107046081
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper tries to address the problem of abusive comment detection in
low-resource indic languages. Abusive comments are statements that are
offensive to a person or a group of people. These comments are targeted toward
individuals belonging to specific ethnicities, genders, caste, race, sexuality,
etc. Abusive Comment Detection is a significant problem, especially with the
recent rise in social media users. This paper presents the approach used by our
team - Optimize_Prime, in the ACL 2022 shared task "Abusive Comment Detection
in Tamil." This task detects and classifies YouTube comments in Tamil and
Tamil- English Codemixed format into multiple categories. We have used three
methods to optimize our results: Ensemble models, Recurrent Neural Networks,
and Transformers. In the Tamil data, MuRIL and XLM-RoBERTA were our best
performing models with a macro-averaged f1 score of 0.43. Furthermore, for the
Code-mixed data, MuRIL and M-BERT provided sub-lime results, with a
macro-averaged f1 score of 0.45.
- Abstract(参考訳): 本稿では,低リソースのインデックス言語における乱用コメント検出の問題に対処する。
虐待的なコメントは、人や人々のグループに対して不快な発言である。
これらのコメントは、特定の民族、性別、キャスト、人種、セクシュアリティなどに属する個人を対象としている。
虐待的コメント検出は特に最近のソーシャルメディア利用者の増加で大きな問題となっている。
本稿では,ACL 2022共有タスク"Abusive Comment Detection in Tamil"において,我々のチームであるOptimize_Primeのアプローチについて述べる。
このタスクは、タミル語とタミル英語のCodemixedフォーマットでYouTubeのコメントを検出して分類する。
結果の最適化には,モデル,リカレントニューラルネットワーク,トランスフォーマーの3つの手法を用いた。
Tamil のデータでは,Mulil と XLM-RoBERTA が,マクロ平均 f1 スコア0.43。
さらに、Code-mixedデータに対して、MuRILとM-BERTは、マクロ平均f1スコア0.45のサブレベル結果を提供した。
関連論文リスト
- Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Detection of Homophobia & Transphobia in Dravidian Languages: Exploring
Deep Learning Methods [1.5687561161428403]
ホモフォビアとトランスフォビアはLGBT+コミュニティに対する攻撃的なコメントを構成している。
本稿では,マラヤラムとタミル・ランゲージのソーシャルメディアコメントの分類に異なるディープラーニング・モジュールの適用性を検討する。
論文 参考訳(メタデータ) (2023-04-03T12:15:27Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - muBoost: An Effective Method for Solving Indic Multilingual Text
Classification Problem [0.0]
我々はMoj上で多言語乱用コメント識別問題に対する解決策を提示している。
この問題は、13の地域インド語で虐待的なコメントを検出することに対処した。
テストデータから平均F1スコアが89.286、ベースラインMURILモデルが87.48で改善された。
論文 参考訳(メタデータ) (2022-06-21T12:06:03Z) - Optimize_Prime@DravidianLangTech-ACL2022: Emotion Analysis in Tamil [1.0066310107046081]
本稿では,タミル語におけるソーシャルメディアコメントの感情分析を行うことを目的とする。
このタスクは、ソーシャルメディアのコメントを、Joy、Anger、Trust、Disgustなどの感情のカテゴリに分類することを目的としている。
論文 参考訳(メタデータ) (2022-04-19T18:47:18Z) - bitsa_nlp@LT-EDI-ACL2022: Leveraging Pretrained Language Models for
Detecting Homophobia and Transphobia in Social Media Comments [0.9981479937152642]
ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアを検出するためのLT-EDI共有タスクを提案する。
我々はmBERTのようなモノリンガル・マルチリンガル・トランスフォーマーモデルを用いて実験を行った。
私たちは、タミル語だけでなく、英語でYouTubeコメントの注意深い注釈付き実生活データセット上で、彼らのパフォーマンスを観察します。
論文 参考訳(メタデータ) (2022-03-27T10:15:34Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Toxicity Detection for Indic Multilingual Social Media Content [0.0]
本稿では、emphIIIT-D Abusive Comment Identification Challengeにおいて、ShareChat/Mojが提供するデータを用いて、チーム「Moj Masti」によって提案されたシステムについて述べる。
我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-01-03T12:01:47Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - Keystroke Biometrics in Response to Fake News Propagation in a Global
Pandemic [77.79066811371978]
本研究では,キーストロークバイオメトリックスを用いたコンテンツ匿名化手法の提案と解析を行う。
フェイクニュースは、特に主要なイベントにおいて、世論を操作する強力なツールとなっている。
論文 参考訳(メタデータ) (2020-05-15T17:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。