論文の概要: NEU at WNUT-2020 Task 2: Data Augmentation To Tell BERT That Death Is
Not Necessarily Informative
- arxiv url: http://arxiv.org/abs/2009.08590v1
- Date: Fri, 18 Sep 2020 02:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:15:28.709109
- Title: NEU at WNUT-2020 Task 2: Data Augmentation To Tell BERT That Death Is
Not Necessarily Informative
- Title(参考訳): NEU at WNUT-2020 Task 2: Data Augmentation to tell BERT that death is not necessary informative。
- Authors: Kumud Chauhan
- Abstract要約: W-NUT2020 Shared Task 2: Identification of Informative COVID-19 English Tweets。
BERTは、情報的ツイートを識別するための簡単な信号を利用し、非情報的ツイートに単純なパターンを追加することで、BERTのパフォーマンスを劇的に低下させることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Millions of people around the world are sharing COVID-19 related information
on social media platforms. Since not all the information shared on the social
media is useful, a machine learning system to identify informative posts can
help users in finding relevant information. In this paper, we present a BERT
classifier system for W-NUT2020 Shared Task 2: Identification of Informative
COVID-19 English Tweets. Further, we show that BERT exploits some easy signals
to identify informative tweets, and adding simple patterns to uninformative
tweets drastically degrades BERT performance. In particular, simply adding 10
deaths to tweets in dev set, reduces BERT F1- score from 92.63 to 7.28. We also
propose a simple data augmentation technique that helps in improving the
robustness and generalization ability of the BERT classifier.
- Abstract(参考訳): 世界中の何百万人もの人々が、ソーシャルメディアプラットフォームでcovid-19関連の情報を共有しています。
ソーシャルメディア上で共有されるすべての情報は有用ではないため、情報的投稿を識別する機械学習システムは、ユーザーが関連する情報を見つけるのに役立つ。
本稿では,W-NUT2020共有タスク2のBERT分類システムを提案する。
さらに, bert は情報に富むツイートを識別するために簡単な信号を利用し, 不正なツイートに単純なパターンを追加すると, bert のパフォーマンスが著しく低下することを示した。
特に、開発セットのツイートに10件の死者を加えるだけで、BERT F1-スコアが92.63から7.28に減少する。
また,bert分類器のロバスト性と一般化能力を向上させるための簡易データ拡張手法を提案する。
関連論文リスト
- ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task
Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。
タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文 参考訳(メタデータ) (2022-10-17T15:25:24Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Dartmouth CS at WNUT-2020 Task 2: Informative COVID-19 Tweet
Classification Using BERT [2.1574781022415364]
我々は、WNUT-2020共有タスク2のために開発されたシステムについて説明します。
BERTは自然言語処理タスクのための高性能なモデルです。
我々は、BERTを微調整し、その埋め込みとつぶやき固有の特徴を結合することにより、この分類タスクにおけるBERTのパフォーマンスを向上した。
論文 参考訳(メタデータ) (2020-12-07T07:55:31Z) - Not-NUTs at W-NUT 2020 Task 2: A BERT-based System in Identifying
Informative COVID-19 English Tweets [0.0]
本稿では、英語のつぶやきを前提として、そのツイートがCOVID-19に関する情報的内容を持つかどうかを自動的に識別するモデルを提案する。
インフォメーションクラスにおけるF1スコアの約1%は、トップパフォーマンスチームによる結果にしか影響しない競争的な結果を達成しました。
論文 参考訳(メタデータ) (2020-09-14T15:49:16Z) - UIT-HSE at WNUT-2020 Task 2: Exploiting CT-BERT for Identifying COVID-19
Information on the Twitter Social Network [2.7528170226206443]
本稿では,W-NUT 2020 Shared Task 2: Identification of Informative COVID-19 English Tweets。
我々は,様々な微調整技術を用いた COVID-Twitter-BERT (CT-BERT) に基づくトランスフォーマーモデルを用いた簡易かつ効果的なアプローチを提案する。
その結果、F1スコアの90.94%を達成し、このタスクのリーダーボードで3位となり、合計56チームが参加した。
論文 参考訳(メタデータ) (2020-09-07T08:20:31Z) - EdinburghNLP at WNUT-2020 Task 2: Leveraging Transformers with
Generalized Augmentation for Identifying Informativeness in COVID-19 Tweets [0.0]
WNUT Task 2: informationative COVID-19 English Tweets の同定を行う。
私たちの最も成功したモデルは、RoBERTa、XLNet、BERTweetといったトランスフォーマーのアンサンブルで、Semi-Supervised Learning (SSL)環境でトレーニングされています。
提案システムでは,テストセット上でのF1スコアが0.9011(リーダボードでは7位)に達し,FastText埋め込みを用いたシステムに比べて性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-09-06T15:57:28Z) - TATL at W-NUT 2020 Task 2: A Transformer-based Baseline System for
Identification of Informative COVID-19 English Tweets [1.4315501760755605]
W-NUT 2020 Shared Task 2: Identification of Informative COVID-19 English Tweets。
事前訓練されたトランスフォーマー言語モデルの最近の進歩に触発されて,タスクの単純かつ効果的なベースラインを提案する。
その単純さにもかかわらず、私たちの提案したアプローチは、リーダーボードに非常に競争力のある結果を示します。
論文 参考訳(メタデータ) (2020-08-28T21:27:42Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。