論文の概要: KEIS@JUST at SemEval-2020 Task 12: Identifying Multilingual Offensive
Tweets Using Weighted Ensemble and Fine-Tuned BERT
- arxiv url: http://arxiv.org/abs/2005.07820v1
- Date: Fri, 15 May 2020 23:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:35:35.456991
- Title: KEIS@JUST at SemEval-2020 Task 12: Identifying Multilingual Offensive
Tweets Using Weighted Ensemble and Fine-Tuned BERT
- Title(参考訳): KEIS@JUST - SemEval-2020 Task 12: Identifying Multilingual Offensive Tweets using Weighted Ensemble and Fine-Tuned BERT (英語)
- Authors: Saja Khaled Tawalbeh, Mahmoud Hammad and Mohammad AL-Smadi
- Abstract要約: 本研究はSemEval-2020 Task 12におけるKEIS@JUST参加について述べる。
2つの主要なアプローチが開発され、最初はアラビア語と英語の両方に取り組み、重み付けされたアンサンブルはBi-GRUとCNNで構成されている。
2つ目は、Bi-LSTMやBi-GRUといったリカレントニューラルネットワークの横にあるBERTからの転送学習である。
- 参考スコア(独自算出の注目度): 2.105564340986074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research presents our team KEIS@JUST participation at SemEval-2020 Task
12 which represents shared task on multilingual offensive language. We
participated in all the provided languages for all subtasks except sub-task-A
for the English language. Two main approaches have been developed the first is
performed to tackle both languages Arabic and English, a weighted ensemble
consists of Bi-GRU and CNN followed by Gaussian noise and global pooling layer
multiplied by weights to improve the overall performance. The second is
performed for other languages, a transfer learning from BERT beside the
recurrent neural networks such as Bi-LSTM and Bi-GRU followed by a global
average pooling layer. Word embedding and contextual embedding have been used
as features, moreover, data augmentation has been used only for the Arabic
language.
- Abstract(参考訳): 本稿では,多言語攻撃言語における共通タスクを表現するsemeval-2020タスク12におけるチームkeis@just参加について述べる。
我々は,英語のサブタスクAを除くすべてのサブタスクに対して提供されるすべての言語に参加した。
2つの主要なアプローチが開発され、最初はアラビア語と英語の両言語に取り組み、重み付けされたアンサンブルはBi-GRUとCNNで構成され、続いてガウスノイズとグローバルプール層が重みに乗じて全体の性能を向上させる。
2つ目は、Bi-LSTMやBi-GRUといったリカレントニューラルネットワークの傍でBERTから転送学習を行い、続いてグローバル平均プーリング層を実行する。
単語の埋め込みと文脈の埋め込みは特徴として使われ、さらにアラビア語でのみデータ拡張が使われている。
関連論文リスト
- Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Handshakes AI Research at CASE 2021 Task 1: Exploring different
approaches for multilingual tasks [0.22940141855172036]
ケース2021共有タスク1の目的は,多言語環境下での社会・政治・危機事象情報の検出と分類である。
提案書にはすべてのサブタスクのエントリが含まれており,得られたスコアが調査結果の妥当性を検証した。
論文 参考訳(メタデータ) (2021-10-29T07:58:49Z) - UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection
on Social Media by Fine-tuning a Variety of BERT-based Models [0.0]
本稿では,Twitter上の攻撃的言語を5言語で識別するTransformerベースのソリューションについて述べる。
これは、Offenseval 2020のSubtask Aの共有タスクで使用された。
論文 参考訳(メタデータ) (2020-10-26T14:28:29Z) - Galileo at SemEval-2020 Task 12: Multi-lingual Learning for Offensive
Language Identification using Pre-trained Language Models [11.868582973877626]
本稿では,ソーシャルメディアにおける攻撃的言語の検出と分類に関するSemEval-2020 Task 12におけるガリレオの業績について述べる。
攻撃的言語同定のために,事前学習型言語モデル,ERNIE,XLM-Rを用いた多言語手法を提案する。
攻撃的言語分類法として,複数の教師付きモデルによって生成されたソフトラベルに基づく知識蒸留法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:40:19Z) - ANDES at SemEval-2020 Task 12: A jointly-trained BERT multilingual model
for offensive language detection [0.6445605125467572]
我々は,提案言語にまたがる課題に対処するために,多言語BERTを微調整した単一モデルを共同で訓練した。
私たちの単一モデルは、最高のパフォーマンスシステムに近いパフォーマンスで、競争力のある結果を得ました。
論文 参考訳(メタデータ) (2020-08-13T16:07:00Z) - LIIR at SemEval-2020 Task 12: A Cross-Lingual Augmentation Approach for
Multilingual Offensive Language Identification [19.23116755449024]
我々は、英語と非英語でそれぞれGoogle AIが利用可能なBERTとMultilingual Bertモデルを適応し、微調整する。
英語では2つの細調整されたBERTモデルの組み合わせを使用します。
他の言語に対して、トレーニングデータを豊かにするための言語間拡張手法を提案し、多言語BERTを用いて文表現を得る。
論文 参考訳(メタデータ) (2020-05-07T18:45:48Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。