論文の概要: Hitachi at SemEval-2020 Task 12: Offensive Language Identification with
Noisy Labels using Statistical Sampling and Post-Processing
- arxiv url: http://arxiv.org/abs/2005.00295v1
- Date: Fri, 1 May 2020 10:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 22:52:02.919536
- Title: Hitachi at SemEval-2020 Task 12: Offensive Language Identification with
Noisy Labels using Statistical Sampling and Post-Processing
- Title(参考訳): SemEval-2020 Task 12: 統計的サンプリングと後処理を用いた雑音ラベルによる攻撃的言語識別
- Authors: Manikandan Ravikiran, Amin Ekant Muljibhai, Toshinori Miyoshi, Hiroaki
Ozaki, Yuta Koreeda and Sakata Masayuki
- Abstract要約: 本稿では,雑音ラベルからの攻撃的言語識別に焦点を当てたSemEval-2020 Task-12 Subtask-A(英語)に参加する。
我々は,統計的サンプリングアルゴリズム (SA) とポストプロシーズド (PP) を用いて,攻撃的な単語リストを用いてツイートを訓練したBERT分類器を用いたハイブリッドシステムを開発した。
本システムでは攻撃性および非攻撃性の両方に対して, 0.90913のマクロ平均F1スコア (Macro-F1) で34位に到達した。
- 参考スコア(独自算出の注目度): 13.638230797979917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our participation in SemEval-2020 Task-12 Subtask-A
(English Language) which focuses on offensive language identification from
noisy labels. To this end, we developed a hybrid system with the BERT
classifier trained with tweets selected using Statistical Sampling Algorithm
(SA) and Post-Processed (PP) using an offensive wordlist. Our developed system
achieved 34 th position with Macro-averaged F1-score (Macro-F1) of 0.90913 over
both offensive and non-offensive classes. We further show comprehensive results
and error analysis to assist future research in offensive language
identification with noisy labels.
- Abstract(参考訳): 本稿では,雑音ラベルからの攻撃的言語識別に焦点を当てたSemEval-2020 Task-12 Subtask-A(英語)への参加について述べる。
そこで我々は,統計的サンプリングアルゴリズム (sa) とポストプロセス (pp) で選択したツイートを訓練したbert分類器を用いたハイブリッドシステムを開発した。
本システムでは攻撃性および非攻撃性の両方に対して平均F1スコア(Macro-F1)を0.90913で34位とした。
さらに,ノイズラベルを用いた攻撃的言語識別における今後の研究を支援するため,総合的な結果と誤り解析を行う。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - BEIKE NLP at SemEval-2022 Task 4: Prompt-Based Paragraph Classification
for Patronizing and Condescending Language Detection [13.944149742291788]
PCL検出タスクは、メディアの脆弱なコミュニティを保護し、あるいは支持している言語を特定することを目的としている。
本稿では,段落分類における素早い学習の力を活用した解法について紹介する。
論文 参考訳(メタデータ) (2022-08-02T08:38:47Z) - Label Matching Semi-Supervised Object Detection [85.99282969977541]
半教師対象検出は,教師主導型自己学習の開発において大きな進歩を遂げている。
ラベルミスマッチ問題は、以前の研究でまだ完全に解明されていないため、自己学習中に重大な確証バイアスが生じる。
本稿では,2つの異なる相補的視点から,単純かつ効果的な LabelMatch フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T05:59:41Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Galileo at SemEval-2020 Task 12: Multi-lingual Learning for Offensive
Language Identification using Pre-trained Language Models [11.868582973877626]
本稿では,ソーシャルメディアにおける攻撃的言語の検出と分類に関するSemEval-2020 Task 12におけるガリレオの業績について述べる。
攻撃的言語同定のために,事前学習型言語モデル,ERNIE,XLM-Rを用いた多言語手法を提案する。
攻撃的言語分類法として,複数の教師付きモデルによって生成されたソフトラベルに基づく知識蒸留法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:40:19Z) - NAYEL at SemEval-2020 Task 12: TF/IDF-Based Approach for Automatic
Offensive Language Detection in Arabic Tweets [0.0]
提案システムは,アラビア語のつぶやきにおける攻撃的言語を自動的に識別することを目的としている。
機械学習に基づくアプローチがシステムの設計に使われてきた。
最上位のシステムと最終ランクのシステムは、それぞれテストセットで90.17%と44.51%のf1スコアを報告した。
論文 参考訳(メタデータ) (2020-07-27T07:44:00Z) - Duluth at SemEval-2020 Task 12: Offensive Tweet Identification in
English with Logistic Regression [0.0]
本稿では,Duluth SemEval--2020 Task 12, Multilingual Offensive Language Identification in Social Media (OffensEval--2020)に参加するシステムについて述べる。
私たちは、タスクオーガナイザが利用可能な遠方の教師付きトレーニングデータに基づいてモデルをトレーニングし、他のリソースを使用しませんでした。
予想通り,タスクAでは85の79位,タスクBでは43の34位,タスクCでは39の24位であった。
論文 参考訳(メタデータ) (2020-07-25T14:49:31Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。