論文の概要: LIIR at SemEval-2020 Task 12: A Cross-Lingual Augmentation Approach for
Multilingual Offensive Language Identification
- arxiv url: http://arxiv.org/abs/2005.03695v2
- Date: Fri, 17 Jul 2020 11:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:25:32.199270
- Title: LIIR at SemEval-2020 Task 12: A Cross-Lingual Augmentation Approach for
Multilingual Offensive Language Identification
- Title(参考訳): SemEval-2020 Task 12におけるLIIR:多言語攻撃言語識別のための言語間拡張アプローチ
- Authors: Erfan Ghadery, Marie-Francine Moens
- Abstract要約: 我々は、英語と非英語でそれぞれGoogle AIが利用可能なBERTとMultilingual Bertモデルを適応し、微調整する。
英語では2つの細調整されたBERTモデルの組み合わせを使用します。
他の言語に対して、トレーニングデータを豊かにするための言語間拡張手法を提案し、多言語BERTを用いて文表現を得る。
- 参考スコア(独自算出の注目度): 19.23116755449024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our system entitled `LIIR' for SemEval-2020 Task 12 on
Multilingual Offensive Language Identification in Social Media (OffensEval 2).
We have participated in sub-task A for English, Danish, Greek, Arabic, and
Turkish languages. We adapt and fine-tune the BERT and Multilingual Bert models
made available by Google AI for English and non-English languages respectively.
For the English language, we use a combination of two fine-tuned BERT models.
For other languages we propose a cross-lingual augmentation approach in order
to enrich training data and we use Multilingual BERT to obtain sentence
representations. LIIR achieved rank 14/38, 18/47, 24/86, 24/54, and 25/40 in
Greek, Turkish, English, Arabic, and Danish languages, respectively.
- Abstract(参考訳): 本稿では,SemEval-2020 Task 12 for Multilingual Offensive Language Identification in Social Media (OffensEval 2)を提案する。
私たちは、英語、デンマーク語、ギリシャ語、アラビア語、トルコ語のサブタスクAに参加しました。
我々は、英語と非英語でそれぞれGoogle AIが利用可能なBERTとMultilingual Bertモデルを適応し、微調整する。
英語では2つの細調整されたBERTモデルの組み合わせを使用します。
他の言語に対して、トレーニングデータを豊かにするための言語間拡張手法を提案し、多言語BERTを用いて文表現を得る。
ギリシャ語、トルコ語、英語、アラビア語、デンマーク語で14/38、18/47、24/86、24/54、25/40の成績を残した。
関連論文リスト
- ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection
on Social Media by Fine-tuning a Variety of BERT-based Models [0.0]
本稿では,Twitter上の攻撃的言語を5言語で識別するTransformerベースのソリューションについて述べる。
これは、Offenseval 2020のSubtask Aの共有タスクで使用された。
論文 参考訳(メタデータ) (2020-10-26T14:28:29Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - BRUMS at SemEval-2020 Task 12 : Transformer based Multilingual Offensive
Language Identification in Social Media [9.710464466895521]
ソーシャルメディアにおける攻撃的言語を特定するための多言語深層学習モデルを提案する。
このアプローチは、言語間の柔軟性を維持しながら、許容できる評価スコアを達成する。
論文 参考訳(メタデータ) (2020-10-13T10:39:14Z) - ANDES at SemEval-2020 Task 12: A jointly-trained BERT multilingual model
for offensive language detection [0.6445605125467572]
我々は,提案言語にまたがる課題に対処するために,多言語BERTを微調整した単一モデルを共同で訓練した。
私たちの単一モデルは、最高のパフォーマンスシステムに近いパフォーマンスで、競争力のある結果を得ました。
論文 参考訳(メタデータ) (2020-08-13T16:07:00Z) - LT@Helsinki at SemEval-2020 Task 12: Multilingual or language-specific
BERT? [0.42056926734482064]
本稿では,SemEval 2020 Shared Task 12のLT@Heldirectionalチームが提出したモデルについて述べる。
研究チームは,攻撃的言語識別と攻撃的ターゲット識別という題名のサブタスクAとCに参加した。
どちらのケースでも、Googleが事前トレーニングし、OLIDデータセットとSOLIDデータセットを微調整した、いわゆるBERT(Bisinki Representation from Transformer)を使用しました。
論文 参考訳(メタデータ) (2020-08-03T12:03:17Z) - SemEval-2020 Task 12: Multilingual Offensive Language Identification in
Social Media (OffensEval 2020) [33.66689662526814]
ソーシャルメディアにおける多言語攻撃言語識別に関するSemEval-2020 Task 12の結果と主な成果を報告する(OffensEval 2020)。
OffensEval 2020は、SemEval-2020で最も人気のあるタスクの1つで、すべてのサブタスク、およびすべての言語で多くの参加者を集めている。
528チームが参加し、145チームが評価期間中にシステムを提出し、70チームがシステム説明書を提出した。
論文 参考訳(メタデータ) (2020-06-12T14:39:40Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。