論文の概要: indicnlp@kgp at DravidianLangTech-EACL2021: Offensive Language
Identification in Dravidian Languages
- arxiv url: http://arxiv.org/abs/2102.07150v1
- Date: Sun, 14 Feb 2021 13:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 06:09:50.286631
- Title: indicnlp@kgp at DravidianLangTech-EACL2021: Offensive Language
Identification in Dravidian Languages
- Title(参考訳): indicnlp@kgp - DravidianLangTech-EACL2021: Offensive Language Identification in Dravidian Languages
- Authors: Kushal Kedia, Abhilash Nandy
- Abstract要約: この論文は、チーム indicnlp@kgp の EACL 2021 共有タスク「ドラヴィディアン言語における言語識別効果」への提出を提示する。
このタスクは、異なる攻撃的コンテンツタイプを3つのコード混合Dravidian言語データセットに分類することを目的としている。
マラヤラム英語,タミル英語,カナダ英語のデータセットでは,平均F1スコア0.97,0.77,0.72が達成された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper presents the submission of the team indicnlp@kgp to the EACL 2021
shared task "Offensive Language Identification in Dravidian Languages." The
task aimed to classify different offensive content types in 3 code-mixed
Dravidian language datasets. The work leverages existing state of the art
approaches in text classification by incorporating additional data and transfer
learning on pre-trained models. Our final submission is an ensemble of an
AWD-LSTM based model along with 2 different transformer model architectures
based on BERT and RoBERTa. We achieved weighted-average F1 scores of 0.97,
0.77, and 0.72 in the Malayalam-English, Tamil-English, and Kannada-English
datasets ranking 1st, 2nd, and 3rd on the respective tasks.
- Abstract(参考訳): 本論文は、EACL 2021共有タスク「ドラヴィダ語におけるOffensive Language Identification in Dravidian Languages」に対して、チーム indicnlp@kgp を提出する。
このタスクは、異なる攻撃的コンテンツタイプを3つのコード混合Dravidian言語データセットに分類することを目的としている。
この研究は、テキスト分類における既存の手法の状況を利用して、事前訓練されたモデルに追加のデータと転送学習を組み込む。
最終的な提出は、BERTとRoBERTaに基づく2つのトランスモデルアーキテクチャとともに、AWD-LSTMベースのモデルのアンサンブルです。
マラヤラム・英語・タミル・英語・カナダ・英語では,平均F1スコアが0.97,0.77,0.72となり,各タスクで1位,2位,3位となった。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - PICT@DravidianLangTech-ACL2022: Neural Machine Translation On Dravidian
Languages [1.0066310107046081]
以下5つの言語対についてニューラルマシン翻訳を行った。
5つの言語ペアのデータセットは、さまざまな翻訳モデルのトレーニングに使用された。
モノリンガルコーパスを含むいくつかのモデルに対して、バックトランスレーションを実装した。
論文 参考訳(メタデータ) (2022-04-19T19:04:05Z) - PSG@HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for
Offensive Language Identification in Tanglish [0.0]
本稿では,Dravidian-Codemix-HASOC2021: Hate Speech and Offensive Language Identification in Dravidian Languageについて述べる。
本課題は,ソーシャルメディアから収集したDravidian言語における,コードミキシングされたコメント・ポスト中の攻撃的コンテンツを特定することを目的とする。
論文 参考訳(メタデータ) (2021-10-06T15:23:40Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Comparing Approaches to Dravidian Language Identification [4.284178873394113]
本稿では、VarDial 2021ワークショップにおいて、チームHWRによるDLI(Dravidian Language Identification)共有タスクへの提出について述べる。
DLIトレーニングセットには、ローマ文字で書かれた16,674のYouTubeコメントが含まれ、英語とコードミックスされたテキストと3つの南ドラヴィディアン言語(カンナダ語、マラヤラム語、タミル語)の1つです。
本結果は,他の多くのテキスト分類タスクほど,ディープラーニング手法が言語識別関連タスクと競合するものではない,という考え方を補強するものである。
論文 参考訳(メタデータ) (2021-03-09T16:58:55Z) - Hate-Alert@DravidianLangTech-EACL2021: Ensembling strategies for
Transformer-based Offensive language Detection [5.139400587753555]
ソーシャルメディアは、しばしば異なる種類の攻撃的コンテンツの繁殖地として機能する。
我々は、異なるトランスモデルを徹底的に探索し、異なるモデルを統合する遺伝的アルゴリズムも提供する。
タミル語では第1位,カンナダ語では第2位,マラヤラム語のサブタスクでは第1位を確保した。
論文 参考訳(メタデータ) (2021-02-19T18:35:38Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。