論文の概要: NLP-CUET@LT-EDI-EACL2021: Multilingual Code-Mixed Hope Speech Detection
using Cross-lingual Representation Learner
- arxiv url: http://arxiv.org/abs/2103.00464v1
- Date: Sun, 28 Feb 2021 11:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:49:15.813766
- Title: NLP-CUET@LT-EDI-EACL2021: Multilingual Code-Mixed Hope Speech Detection
using Cross-lingual Representation Learner
- Title(参考訳): NLP-CUET@LT-EDI-EACL2021:クロスランガル表現学習者を用いた多言語コード混合希望音声検出
- Authors: Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque
- Abstract要約: 希望語を英語、タミル語、マラヤラム語で識別する3つのモデルを提案する。
私たちのチームは、それぞれ3つのタスクで1st$、2nd$、および1st$ランクを達成しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, several systems have been developed to regulate the spread
of negativity and eliminate aggressive, offensive or abusive contents from the
online platforms. Nevertheless, a limited number of researches carried out to
identify positive, encouraging and supportive contents. In this work, our goal
is to identify whether a social media post/comment contains hope speech or not.
We propose three distinct models to identify hope speech in English, Tamil and
Malayalam language to serve this purpose. To attain this goal, we employed
various machine learning (support vector machine, logistic regression,
ensemble), deep learning (convolutional neural network + long short term
memory) and transformer (m-BERT, Indic-BERT, XLNet, XLM-Roberta) based methods.
Results indicate that XLM-Roberta outdoes all other techniques by gaining a
weighted $f_1$-score of $0.93$, $0.60$ and $0.85$ respectively for English,
Tamil and Malayalam language. Our team has achieved $1^{st}$, $2^{nd}$ and
$1^{st}$ rank in these three tasks respectively.
- Abstract(参考訳): 近年, ネットプラットフォームからの攻撃的, 攻撃的, 虐待的コンテンツを排除するために, ネガティビティの拡散を規制するシステムが開発されている。
それでも、肯定的、奨励的、支持的な内容を特定するために行われた研究は限られている。
本研究の目的は,ソーシャルメディアの投稿や投稿がホープスピーチを含むかどうかを識別することである。
本研究では, 英語, タミル語, マラヤラム語の希望語を同定する3つのモデルを提案する。
この目標を達成するために、我々は様々な機械学習(サポートベクターマシン、ロジスティック回帰、アンサンブル)、ディープラーニング(畳み込みニューラルネットワーク+長期記憶)、トランスフォーマー(m-BERT, Indic-BERT, XLNet, XLM-Roberta)ベースの手法を用いた。
その結果、XLM-Robertaは、英語、タミル語、マラヤラム語で重み付き$0.93$、$0.60$、$0.85$の$f_1$スコアを得ることで、他のすべてのテクニックを上回っている。
私たちのチームは、3つのタスクでそれぞれ$1^{st}$、$2^{nd}$、$1^{st}$ランクを達成しました。
関連論文リスト
- BeAts: Bengali Speech Acts Recognition using Multimodal Attention Fusion [0.0]
我々は,音声のwav2vec2.0とテキスト翻訳のMarianMTの2つのモデルを組み合わせて,音声行動を予測する手法を開発した。
また,我々のモデルであるBeAts(underlinetextbfBe$ngali)がMultimodal $underlinetextbfAt$tention Fu$underlinetextbfs$ionを用いて音声認識を行うことを示す。
論文 参考訳(メタデータ) (2023-06-05T08:12:17Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models [100.29953199404905]
語彙重複の少ない言語間でのトークン共有を非強調化することにより,多言語語彙に拡張する新たなアプローチを提案する。
我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-V は低リソースの言語タスクに特に有効であり、マサハナーとアメリカの NLI では XLM-R を 11.2% と 5.8% で上回っている。
論文 参考訳(メタデータ) (2023-01-25T09:15:17Z) - bitsa_nlp@LT-EDI-ACL2022: Leveraging Pretrained Language Models for
Detecting Homophobia and Transphobia in Social Media Comments [0.9981479937152642]
ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアを検出するためのLT-EDI共有タスクを提案する。
我々はmBERTのようなモノリンガル・マルチリンガル・トランスフォーマーモデルを用いて実験を行った。
私たちは、タミル語だけでなく、英語でYouTubeコメントの注意深い注釈付き実生活データセット上で、彼らのパフォーマンスを観察します。
論文 参考訳(メタデータ) (2022-03-27T10:15:34Z) - NLP-CUET@DravidianLangTech-EACL2021: Investigating Visual and Textual
Features to Identify Trolls from Multimodal Social Media Memes [0.0]
共有タスクは、マルチモーダルソーシャルメディアミームからトロールを識別することができるモデルを開発するために組織されます。
この研究は、私たちがタスクへの参加の一部として開発した計算モデルを提示します。
CNN, VGG16, Inception, Multilingual-BERT, XLM-Roberta, XLNetモデルを用いて視覚的およびテキスト的特徴を検討した。
論文 参考訳(メタデータ) (2021-02-28T11:36:50Z) - NLP-CUET@DravidianLangTech-EACL2021: Offensive Language Detection from
Multilingual Code-Mixed Text using Transformers [0.0]
本稿では,多言語コード混合データから不快テキストを識別する自動システムを提案する。
タミル語、マラヤラム語、カンナダ語を含む3つの言語で提供されるデータセット。
論文 参考訳(メタデータ) (2021-02-28T11:10:32Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。