論文の概要: UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection
on Social Media by Fine-tuning a Variety of BERT-based Models
- arxiv url: http://arxiv.org/abs/2010.13609v2
- Date: Tue, 27 Oct 2020 09:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 17:54:08.290956
- Title: UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection
on Social Media by Fine-tuning a Variety of BERT-based Models
- Title(参考訳): UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection on Social Media by Fine-tuning a Variety of BERT-based Models
- Authors: Mircea-Adrian Tanase, Dumitru-Clementin Cercel and Costin-Gabriel
Chiru
- Abstract要約: 本稿では,Twitter上の攻撃的言語を5言語で識別するTransformerベースのソリューションについて述べる。
これは、Offenseval 2020のSubtask Aの共有タスクで使用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offensive language detection is one of the most challenging problem in the
natural language processing field, being imposed by the rising presence of this
phenomenon in online social media. This paper describes our Transformer-based
solutions for identifying offensive language on Twitter in five languages
(i.e., English, Arabic, Danish, Greek, and Turkish), which was employed in
Subtask A of the Offenseval 2020 shared task. Several neural architectures
(i.e., BERT, mBERT, Roberta, XLM-Roberta, and ALBERT), pre-trained using both
single-language and multilingual corpora, were fine-tuned and compared using
multiple combinations of datasets. Finally, the highest-scoring models were
used for our submissions in the competition, which ranked our team 21st of 85,
28th of 53, 19th of 39, 16th of 37, and 10th of 46 for English, Arabic, Danish,
Greek, and Turkish, respectively.
- Abstract(参考訳): 攻撃的言語検出は、自然言語処理分野において最も困難な問題の一つであり、オンラインソーシャルメディアにおけるこの現象の出現によって課される。
本稿では,twitter上の攻撃的言語を,offenseval 2020共有タスクのサブタスクaで使用された5つの言語(英語,アラビア語,デンマーク語,ギリシャ語,トルコ語)で識別するためのトランスフォーマティブベースのソリューションについて述べる。
いくつかのニューラルアーキテクチャ(BERT、mBERT、Roberta、XLM-Roberta、ALBERT)は、単一言語と多言語コーパスの両方を用いて事前訓練され、複数のデータセットの組み合わせで比較された。
最後に、最も高いスコア付けのモデルが大会の応募に使われ、チーム21位85位、53位28位、39位39位、37位16位、46位46位、アラビア語、デンマーク語、ギリシャ語、トルコ語でそれぞれランク付けしました。
関連論文リスト
- ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - tmn at SemEval-2023 Task 9: Multilingual Tweet Intimacy Detection using
XLM-T, Google Translate, and Ensemble Learning [2.28438857884398]
本稿では,SemEval-2023 Task 9: Multilingual Tweet Intimacy Analysisのために設計されたトランスフォーマーベースのシステムについて述べる。
このタスクの目的は、ツイートの親密さを1(全く親密ではない)から5(非常に親密)まで予測することであった。
論文 参考訳(メタデータ) (2023-04-08T15:50:16Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - WOLI at SemEval-2020 Task 12: Arabic Offensive Language Identification
on Different Twitter Datasets [0.0]
ソーシャルメディア上で攻撃的言語と戦うための鍵は、自動攻撃的言語検出システムの存在である。
本稿では,Macro-F1 86.9%の52人中10位にランクインした共有タスクに対して,WideBot AI Labが提出したシステムについて述べる。
また、CNN、ハイウェイネットワーク、Bi-LSTM、アテンション層を含むシステムの予測能力を向上するニューラルネットワークアプローチも導入しました。
論文 参考訳(メタデータ) (2020-09-11T14:10:03Z) - ANDES at SemEval-2020 Task 12: A jointly-trained BERT multilingual model
for offensive language detection [0.6445605125467572]
我々は,提案言語にまたがる課題に対処するために,多言語BERTを微調整した単一モデルを共同で訓練した。
私たちの単一モデルは、最高のパフォーマンスシステムに近いパフォーマンスで、競争力のある結果を得ました。
論文 参考訳(メタデータ) (2020-08-13T16:07:00Z) - KUISAIL at SemEval-2020 Task 12: BERT-CNN for Offensive Speech
Identification in Social Media [0.2148535041822524]
我々は,CNNとBERTを組み合わせる方が,BERTを単独で使用するよりも優れていることを示す。
本稿では、アラビア語のための事前訓練されたトランスフォーマー言語モデルであるアラビアBERTを紹介する。
論文 参考訳(メタデータ) (2020-07-26T17:26:20Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - LIIR at SemEval-2020 Task 12: A Cross-Lingual Augmentation Approach for
Multilingual Offensive Language Identification [19.23116755449024]
我々は、英語と非英語でそれぞれGoogle AIが利用可能なBERTとMultilingual Bertモデルを適応し、微調整する。
英語では2つの細調整されたBERTモデルの組み合わせを使用します。
他の言語に対して、トレーニングデータを豊かにするための言語間拡張手法を提案し、多言語BERTを用いて文表現を得る。
論文 参考訳(メタデータ) (2020-05-07T18:45:48Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。