論文の概要: SN Computer Science: Towards Offensive Language Identification for Tamil
Code-Mixed YouTube Comments and Posts
- arxiv url: http://arxiv.org/abs/2108.10939v1
- Date: Tue, 24 Aug 2021 20:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 22:55:59.609103
- Title: SN Computer Science: Towards Offensive Language Identification for Tamil
Code-Mixed YouTube Comments and Posts
- Title(参考訳): SNコンピュータサイエンス:タミル語によるYouTubeコメントと投稿の攻撃的言語識別を目指す
- Authors: Charangan Vasantharajan and Uthayasanker Thayasivam
- Abstract要約: 本研究では,複数の深層学習モデルを用いた広範囲な実験を行い,YouTube上の攻撃的コンテンツを検出するための伝達学習モデルを提案する。
そこで本研究では,多言語トランスフォーマーネットワークの微調整とエンハンスブルによるより良い結果を得るために,選択的翻訳と音読化技術の新しいフレキシブルなアプローチを提案する。
提案したULMFiTとmBERTBiLSTMは良好な結果を得た。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offensive Language detection in social media platforms has been an active
field of research over the past years. In non-native English spoken countries,
social media users mostly use a code-mixed form of text in their
posts/comments. This poses several challenges in the offensive content
identification tasks, and considering the low resources available for Tamil,
the task becomes much harder. The current study presents extensive experiments
using multiple deep learning, and transfer learning models to detect offensive
content on YouTube. We propose a novel and flexible approach of selective
translation and transliteration techniques to reap better results from
fine-tuning and ensembling multilingual transformer networks like BERT, Distil-
BERT, and XLM-RoBERTa. The experimental results showed that ULMFiT is the best
model for this task. The best performing models were ULMFiT and mBERTBiLSTM for
this Tamil code-mix dataset instead of more popular transfer learning models
such as Distil- BERT and XLM-RoBERTa and hybrid deep learning models. The
proposed model ULMFiT and mBERTBiLSTM yielded good results and are promising
for effective offensive speech identification in low-resourced languages.
- Abstract(参考訳): ソーシャルメディアプラットフォームにおける攻撃的言語検出は、ここ数年で活発な研究分野となっている。
非ネイティブな英語圏では、ソーシャルメディアのユーザーは投稿や記事にコードミキシングされたテキストを使うことが多い。
これは、攻撃的なコンテンツ識別タスクにいくつかの課題をもたらし、Tamilで利用可能なリソースが少ないことを考えると、タスクはずっと難しくなります。
本研究は,複数の深層学習モデルを用いて広範な実験を行い,YouTube上の攻撃的コンテンツを検出する。
本稿では,BERT, DistilBERT, XLM-RoBERTaなどの多言語トランスフォーマネットワークを微調整し, アンサンブルすることで, より優れた結果を得るための, 選択的翻訳・翻訳手法の新規かつ柔軟なアプローチを提案する。
実験の結果, ULMFiTが最適モデルであることが確認された。
最高のパフォーマンスモデルは、 Distil-BERT や XLM-RoBERTa などの一般的なトランスファー学習モデルやハイブリッドディープラーニングモデルの代わりに、このタミル符号混合データセットの ULMFiT と mBERTBiLSTM であった。
提案されたモデルulmfitとmbertbilstmは良好な結果をもたらし、低リソース言語における効果的な攻撃的音声識別を約束している。
関連論文リスト
- TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Language Identification of Hindi-English tweets using code-mixed BERT [0.0]
この研究は、ヒンディー語-英語-ウルドゥー語混成テキストのデータ収集を言語事前学習に利用し、ヒンディー語-英語混成テキストはその後の単語レベルの言語分類に利用している。
その結果、コードミックスデータ上で事前学習された表現は、モノリンガルデータによるより良い結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-07-02T17:51:36Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。