論文の概要: Multilingual Offensive Language Identification for Low-resource
Languages
- arxiv url: http://arxiv.org/abs/2105.05996v1
- Date: Wed, 12 May 2021 22:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 01:11:28.311246
- Title: Multilingual Offensive Language Identification for Low-resource
Languages
- Title(参考訳): 低リソース言語に対する多言語攻撃言語識別
- Authors: Tharindu Ranasinghe, Marcos Zampieri
- Abstract要約: 低リソース言語で予測を行うために、言語間の文脈的単語埋め込みと転送学習を適用することで、利用可能な英語データセットを活用する。
我々は、アラビア語、ベンガル語、デンマーク語、ギリシャ語、ヒンディー語、スペイン語、トルコ語で比較データに基づいて予測を行う。
すべての言語の結果は、このタスクのためのクロス言語のコンテキスト埋め込みと転送学習の堅牢性を確認します。
- 参考スコア(独自算出の注目度): 3.284443134471233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offensive content is pervasive in social media and a reason for concern to
companies and government organizations. Several studies have been recently
published investigating methods to detect the various forms of such content
(e.g. hate speech, cyberbullying, and cyberaggression). The clear majority of
these studies deal with English partially because most annotated datasets
available contain English data. In this paper, we take advantage of available
English datasets by applying cross-lingual contextual word embeddings and
transfer learning to make predictions in low-resource languages. We project
predictions on comparable data in Arabic, Bengali, Danish, Greek, Hindi,
Spanish, and Turkish. We report results of 0.8415 F1 macro for Bengali in
TRAC-2 shared task, 0.8532 F1 macro for Danish and 0.8701 F1 macro for Greek in
OffensEval 2020, 0.8568 F1 macro for Hindi in HASOC 2019 shared task and 0.7513
F1 macro for Spanish in in SemEval-2019 Task 5 (HatEval) showing that our
approach compares favourably to the best systems submitted to recent shared
tasks on these three languages. Additionally, we report competitive performance
on Arabic, and Turkish using the training and development sets of OffensEval
2020 shared task. The results for all languages confirm the robustness of
cross-lingual contextual embeddings and transfer learning for this task.
- Abstract(参考訳): 悪質なコンテンツはソーシャルメディアに広まり、企業や政府機関への懸念の理由となっている。
このような内容の様々な形態(例)を検出するための研究手法が最近いくつか発表された。
ヘイトスピーチ、サイバーいじめ、サイバー攻撃)。
これらの研究の大部分が英語を扱うのは、ほとんどの注釈付きデータセットが英語のデータを含んでいるためである。
本稿では,低リソース言語における言語間文脈単語埋め込みと伝達学習を適用して,利用可能な英語データセットを活用する。
我々は、アラビア語、ベンガル語、デンマーク語、ギリシャ語、ヒンディー語、スペイン語、トルコ語で比較データに基づいて予測を行う。
trac-2 タスクにおける bengali の 0.8415 f1 マクロ、デンマーク語では 0.8532 f1マクロ、ギリシャ語では 0.8701 f1マクロ、hasoc 2019 タスクでは 0.8568 f1マクロ、スペイン語では 0.7513 f1マクロ、semeval-2019 task 5 (hateval) では、我々のアプローチが、これら3つの言語で最近共有タスクに提出された最良のシステムと比較できることを示した。
さらに,offenseval 2020共有タスクのトレーニングと開発セットを用いて,アラビア語とトルコ語の競争力を報告した。
すべての言語での結果は、このタスクに対する言語間コンテキスト埋め込みと転送学習のロバスト性を確認した。
関連論文リスト
- 1-800-SHARED-TASKS @ NLU of Devanagari Script Languages: Detection of Language, Hate Speech, and Targets using LLMs [0.0]
本稿では,CHiPSAL 2025共有タスクの入力に関する詳細なシステム記述について述べる。
本稿では,Devanagariスクリプト言語における言語検出,ヘイトスピーチ識別,ターゲット検出に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-11T10:34:36Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Multilingual Offensive Language Identification with Cross-lingual
Embeddings [20.53592812108394]
我々は、言語間コンテキストの単語埋め込みと伝達学習を適用して利用可能な英語データを利用して、少ないリソースを持つ言語での予測を行う。
我々はベンガル語、ヒンディー語、スペイン語の同値なデータを予測し、ベンガル語で0.8415 F1マクロ、ヒンディー語で0.8568 F1マクロ、スペイン語で0.7513 F1マクロを報告した。
論文 参考訳(メタデータ) (2020-10-11T19:17:24Z) - Cross-Lingual Transfer Learning for Complex Word Identification [0.3437656066916039]
複合単語識別(CWI)は、テキスト中の難解な単語を検出することに焦点を当てたタスクである。
我々のアプローチでは、自然言語処理(NLP)タスクのための最先端のソリューションとともに、ゼロショット、ワンショット、および少数ショットの学習技術を使用します。
本研究の目的は,多言語環境下で複雑な単語の特徴を学習できることを示すことである。
論文 参考訳(メタデータ) (2020-10-02T17:09:47Z) - Cross-lingual Inductive Transfer to Detect Offensive Language [3.655021726150369]
XLM-RoBERTa (XLM-R) を用いたツイート中の攻撃的言語を特定するための言語間帰納的手法を提案する。
私たちのモデルは5つの言語すべてで競争力を発揮します。
論文 参考訳(メタデータ) (2020-07-07T20:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。