論文の概要: NLP-CUET@DravidianLangTech-EACL2021: Offensive Language Detection from
Multilingual Code-Mixed Text using Transformers
- arxiv url: http://arxiv.org/abs/2103.00455v1
- Date: Sun, 28 Feb 2021 11:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:49:43.387167
- Title: NLP-CUET@DravidianLangTech-EACL2021: Offensive Language Detection from
Multilingual Code-Mixed Text using Transformers
- Title(参考訳): NLP-CUET@DravidianLangTech-EACL2021:Transformerを用いた多言語コード混合テキストからの攻撃言語検出
- Authors: Omar Sharif, Eftekhar Hossain, Mohammed Moshiul Hoque
- Abstract要約: 本稿では,多言語コード混合データから不快テキストを識別する自動システムを提案する。
タミル語、マラヤラム語、カンナダ語を含む3つの言語で提供されるデータセット。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing accessibility of the internet facilitated social media usage
and encouraged individuals to express their opinions liberally. Nevertheless,
it also creates a place for content polluters to disseminate offensive posts or
contents. Most of such offensive posts are written in a cross-lingual manner
and can easily evade the online surveillance systems. This paper presents an
automated system that can identify offensive text from multilingual code-mixed
data. In the task, datasets provided in three languages including Tamil,
Malayalam and Kannada code-mixed with English where participants are asked to
implement separate models for each language. To accomplish the tasks, we
employed two machine learning techniques (LR, SVM), three deep learning (LSTM,
LSTM+Attention) techniques and three transformers (m-BERT, Indic-BERT, XLM-R)
based methods. Results show that XLM-R outperforms other techniques in Tamil
and Malayalam languages while m-BERT achieves the highest score in the Kannada
language. The proposed models gained weighted $f_1$ score of $0.76$ (for
Tamil), $0.93$ (for Malayalam), and $0.71$ (for Kannada) with a rank of
$3^{rd}$, $5^{th}$ and $4^{th}$ respectively.
- Abstract(参考訳): インターネットのアクセシビリティが高まり、ソーシャルメディアの利用が促進され、個人は自由に意見を表現できるようになった。
それにもかかわらず、コンテンツ汚染者が攻撃的な投稿やコンテンツを広める場所も作成します。
このような攻撃的な投稿のほとんどは多言語で書かれており、オンライン監視システムを簡単に回避できます。
本稿では,多言語コード混合データから不快テキストを識別する自動システムを提案する。
タスクでは、Tamil、Malayalam、Kannadaの3つの言語で提供されるデータセットが英語とコードミックスされ、参加者は言語ごとに別々のモデルを実装するように求められます。
これらの課題を達成するために,我々は,2つの機械学習技術(LR,SVM),3つのディープラーニング技術(LSTM,LSTM+Attention)と3つのトランスフォーマー(m-BERT,Indic-BERT,XLM-R)を用いた。
結果は、XLM-Rがタミル語とマラヤラム語の他の技術よりも優れていることを示し、m-BERTはカンナダ語で最も高いスコアを達成している。
提案されたモデルは、それぞれ$0.76$(タミル用)、$0.93$(マラヤラム用)、$0.71$(カンナダ用)の重み付き$f_1$スコアを獲得し、それぞれ$3^{rd}$、$5^{th}$、$4^{th}$となった。
関連論文リスト
- How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - bitsa_nlp@LT-EDI-ACL2022: Leveraging Pretrained Language Models for
Detecting Homophobia and Transphobia in Social Media Comments [0.9981479937152642]
ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアを検出するためのLT-EDI共有タスクを提案する。
我々はmBERTのようなモノリンガル・マルチリンガル・トランスフォーマーモデルを用いて実験を行った。
私たちは、タミル語だけでなく、英語でYouTubeコメントの注意深い注釈付き実生活データセット上で、彼らのパフォーマンスを観察します。
論文 参考訳(メタデータ) (2022-03-27T10:15:34Z) - IIITT@Dravidian-CodeMix-FIRE2021: Transliterate or translate? Sentiment
analysis of code-mixed text in Dravidian languages [0.0]
本研究は,カナダ語,タミル語,マラヤラム語において,コードミキシングによるソーシャルメディアコメントの感情分析という形で,この研究に小さな貢献をしている。
FIRE 2021でDravidian-CodeMix氏が行った共有タスクの作業について説明している。
結果は,タミル,カナダ,マラヤラムの各タスクにおいて,最良モデルが4位,第5位,第10位であった研究論文に記録されている。
論文 参考訳(メタデータ) (2021-11-15T16:57:59Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - SN Computer Science: Towards Offensive Language Identification for Tamil
Code-Mixed YouTube Comments and Posts [2.0305676256390934]
本研究では,複数の深層学習モデルを用いた広範囲な実験を行い,YouTube上の攻撃的コンテンツを検出するための伝達学習モデルを提案する。
そこで本研究では,多言語トランスフォーマーネットワークの微調整とエンハンスブルによるより良い結果を得るために,選択的翻訳と音読化技術の新しいフレキシブルなアプローチを提案する。
提案したULMFiTとmBERTBiLSTMは良好な結果を得た。
論文 参考訳(メタデータ) (2021-08-24T20:23:30Z) - NLP-CUET@LT-EDI-EACL2021: Multilingual Code-Mixed Hope Speech Detection
using Cross-lingual Representation Learner [0.0]
希望語を英語、タミル語、マラヤラム語で識別する3つのモデルを提案する。
私たちのチームは、それぞれ3つのタスクで1st$、2nd$、および1st$ランクを達成しました。
論文 参考訳(メタデータ) (2021-02-28T11:30:52Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。