論文の概要: Cross-lingual Inductive Transfer to Detect Offensive Language
- arxiv url: http://arxiv.org/abs/2007.03771v1
- Date: Tue, 7 Jul 2020 20:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 20:07:44.609166
- Title: Cross-lingual Inductive Transfer to Detect Offensive Language
- Title(参考訳): 攻撃言語検出のための言語間インダクティブトランスファー
- Authors: Kartikey Pant and Tanvi Dadu
- Abstract要約: XLM-RoBERTa (XLM-R) を用いたツイート中の攻撃的言語を特定するための言語間帰納的手法を提案する。
私たちのモデルは5つの言語すべてで競争力を発揮します。
- 参考スコア(独自算出の注目度): 3.655021726150369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing use of social media and its availability, many instances of
the use of offensive language have been observed across multiple languages and
domains. This phenomenon has given rise to the growing need to detect the
offensive language used in social media cross-lingually. In OffensEval 2020,
the organizers have released the \textit{multilingual Offensive Language
Identification Dataset} (mOLID), which contains tweets in five different
languages, to detect offensive language. In this work, we introduce a
cross-lingual inductive approach to identify the offensive language in tweets
using the contextual word embedding \textit{XLM-RoBERTa} (XLM-R). We show that
our model performs competitively on all five languages, obtaining the fourth
position in the English task with an F1-score of $0.919$ and eighth position in
the Turkish task with an F1-score of $0.781$. Further experimentation proves
that our model works competitively in a zero-shot learning environment, and is
extensible to other languages.
- Abstract(参考訳): ソーシャルメディアの利用の増加と利用状況により、攻撃的言語の使用は複数の言語やドメインで観測されている。
この現象は、ソーシャルメディアで使われる攻撃的言語を言語横断的に検出する必要性が高まっている。
offenseval 2020で、主催者は攻撃言語を検出するために、5つの異なる言語によるツイートを含む \textit{multilingual offensive language identification dataset} (molid)をリリースした。
本研究では, ツイート中の攻撃的言語を特定するための言語間帰納的手法として, 文脈語埋め込み \textit{XLM-RoBERTa} (XLM-R) を提案する。
我々のモデルは5つの言語すべてで競争力があり、f1-score ($0.919$) と8-score ($0.781$) で英語タスクの4番目の位置を得る。
さらなる実験により、我々のモデルはゼロショット学習環境で競争力があり、他の言語にも拡張可能であることが証明された。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Event Extraction in Basque: Typologically motivated Cross-Lingual Transfer-Learning Analysis [18.25948580496853]
低リソース言語におけるイベント抽出では,言語間移動学習が広く用いられている。
本稿では,ソース言語とターゲット言語との類型的類似性が,言語間移動の性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-09T15:35:41Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。