論文の概要: ANDES at SemEval-2020 Task 12: A jointly-trained BERT multilingual model
for offensive language detection
- arxiv url: http://arxiv.org/abs/2008.06408v1
- Date: Thu, 13 Aug 2020 16:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:03:14.255536
- Title: ANDES at SemEval-2020 Task 12: A jointly-trained BERT multilingual model
for offensive language detection
- Title(参考訳): SemEval-2020 Task 12: 攻撃言語検出のための共同学習型BERT多言語モデル
- Authors: Juan Manuel P\'erez, Aym\'e Arango, Franco Luque
- Abstract要約: 我々は,提案言語にまたがる課題に対処するために,多言語BERTを微調整した単一モデルを共同で訓練した。
私たちの単一モデルは、最高のパフォーマンスシステムに近いパフォーマンスで、競争力のある結果を得ました。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our participation in SemEval-2020 Task 12: Multilingual
Offensive Language Detection. We jointly-trained a single model by fine-tuning
Multilingual BERT to tackle the task across all the proposed languages:
English, Danish, Turkish, Greek and Arabic. Our single model had competitive
results, with a performance close to top-performing systems in spite of sharing
the same parameters across all languages. Zero-shot and few-shot experiments
were also conducted to analyze the transference performance among these
languages. We make our code public for further research
- Abstract(参考訳): 本稿では,SemEval-2020 Task 12: Multilingual Offensive Language Detectionへの参加について述べる。
提案する言語(英語、デンマーク語、トルコ語、ギリシャ語、アラビア語)すべてにタスクに取り組むために、多言語bertを微調整することで、単一のモデルを共同でトレーニングしました。
私たちの単一モデルは、すべての言語で同じパラメータを共有するにもかかわらず、トップパフォーマンスシステムに近いパフォーマンスで、競争力のある結果を得ました。
これらの言語間のトランスファー性能を分析するためにゼロショットおよび少数ショットの実験も行われた。
さらなる研究のためにコードを公開する
関連論文リスト
- Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Revisiting non-English Text Simplification: A Unified Multilingual
Benchmark [14.891068432456262]
本稿では,12言語に170万以上の複雑な文対を含む27のリソースの集合であるMultiSimベンチマークを紹介する。
事前学習した多言語言語モデルを用いたMultiSimを用いた実験により,非英語環境での多言語学習によるエキサイティングな性能向上が示された。
論文 参考訳(メタデータ) (2023-05-25T03:03:29Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Handshakes AI Research at CASE 2021 Task 1: Exploring different
approaches for multilingual tasks [0.22940141855172036]
ケース2021共有タスク1の目的は,多言語環境下での社会・政治・危機事象情報の検出と分類である。
提案書にはすべてのサブタスクのエントリが含まれており,得られたスコアが調査結果の妥当性を検証した。
論文 参考訳(メタデータ) (2021-10-29T07:58:49Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection
on Social Media by Fine-tuning a Variety of BERT-based Models [0.0]
本稿では,Twitter上の攻撃的言語を5言語で識別するTransformerベースのソリューションについて述べる。
これは、Offenseval 2020のSubtask Aの共有タスクで使用された。
論文 参考訳(メタデータ) (2020-10-26T14:28:29Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - KEIS@JUST at SemEval-2020 Task 12: Identifying Multilingual Offensive
Tweets Using Weighted Ensemble and Fine-Tuned BERT [2.105564340986074]
本研究はSemEval-2020 Task 12におけるKEIS@JUST参加について述べる。
2つの主要なアプローチが開発され、最初はアラビア語と英語の両方に取り組み、重み付けされたアンサンブルはBi-GRUとCNNで構成されている。
2つ目は、Bi-LSTMやBi-GRUといったリカレントニューラルネットワークの横にあるBERTからの転送学習である。
論文 参考訳(メタデータ) (2020-05-15T23:11:03Z) - LIIR at SemEval-2020 Task 12: A Cross-Lingual Augmentation Approach for
Multilingual Offensive Language Identification [19.23116755449024]
我々は、英語と非英語でそれぞれGoogle AIが利用可能なBERTとMultilingual Bertモデルを適応し、微調整する。
英語では2つの細調整されたBERTモデルの組み合わせを使用します。
他の言語に対して、トレーニングデータを豊かにするための言語間拡張手法を提案し、多言語BERTを用いて文表現を得る。
論文 参考訳(メタデータ) (2020-05-07T18:45:48Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。