論文の概要: Duluth at SemEval-2020 Task 12: Offensive Tweet Identification in
English with Logistic Regression
- arxiv url: http://arxiv.org/abs/2007.12946v1
- Date: Sat, 25 Jul 2020 14:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 01:11:00.512068
- Title: Duluth at SemEval-2020 Task 12: Offensive Tweet Identification in
English with Logistic Regression
- Title(参考訳): duluth at semeval-2020 task 12: offensive tweet identification in english with logistic regression
- Authors: Ted Pedersen
- Abstract要約: 本稿では,Duluth SemEval--2020 Task 12, Multilingual Offensive Language Identification in Social Media (OffensEval--2020)に参加するシステムについて述べる。
私たちは、タスクオーガナイザが利用可能な遠方の教師付きトレーニングデータに基づいてモデルをトレーニングし、他のリソースを使用しませんでした。
予想通り,タスクAでは85の79位,タスクBでは43の34位,タスクCでは39の24位であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the Duluth systems that participated in SemEval--2020
Task 12, Multilingual Offensive Language Identification in Social Media
(OffensEval--2020). We participated in the three English language tasks. Our
systems provide a simple Machine Learning baseline using logistic regression.
We trained our models on the distantly supervised training data made available
by the task organizers and used no other resources. As might be expected we did
not rank highly in the comparative evaluation: 79th of 85 in Task A, 34th of 43
in Task B, and 24th of 39 in Task C. We carried out a qualitative analysis of
our results and found that the class labels in the gold standard data are
somewhat noisy. We hypothesize that the extremely high accuracy (> 90%) of the
top ranked systems may reflect methods that learn the training data very well
but may not generalize to the task of identifying offensive language in
English. This analysis includes examples of tweets that despite being mildly
redacted are still offensive.
- Abstract(参考訳): 本稿では,SemEval--2020 Task 12, Multilingual Offensive Language Identification in Social Media (OffensEval--2020)に参加したDuluthシステムについて述べる。
私たちは3つの英語の仕事に参加した。
我々のシステムはロジスティック回帰を用いた単純な機械学習ベースラインを提供する。
タスクオーガナイザが利用可能な遠方の教師付きトレーニングデータに基づいてモデルをトレーニングし、他のリソースを使用しませんでした。
その結果,第85タスクA,第43タスクB,第39タスクC,第24タスクA,第79タスクB,第43タスクB,第39タスクC,第24タスクAにおいて,結果の質的分析を行い,ゴールド標準データのクラスラベルがややうるさいことがわかった。
上位階級のシステムにおける極めて高い精度(>90%)は、トレーニングデータを非常によく学習する手法を反映するが、英語で攻撃的な言語を特定するタスクには一般化しない、という仮説を立てる。
この分析には、軽度に再現されたにもかかわらず、いまだに攻撃的なツイートの例が含まれている。
関連論文リスト
- Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - HFL at SemEval-2022 Task 8: A Linguistics-inspired Regression Model with
Data Augmentation for Multilingual News Similarity [16.454545004093735]
本稿では,SemEval-2022 Task 8: Multilingual News Article similarityについて述べる。
我々は,いくつかのタスク固有の戦略で訓練された言語モデルを提案した。
Pearson's correlation Coefficient of 0.818 on the official evaluation set。
論文 参考訳(メタデータ) (2022-04-11T03:08:37Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Galileo at SemEval-2020 Task 12: Multi-lingual Learning for Offensive
Language Identification using Pre-trained Language Models [11.868582973877626]
本稿では,ソーシャルメディアにおける攻撃的言語の検出と分類に関するSemEval-2020 Task 12におけるガリレオの業績について述べる。
攻撃的言語同定のために,事前学習型言語モデル,ERNIE,XLM-Rを用いた多言語手法を提案する。
攻撃的言語分類法として,複数の教師付きモデルによって生成されたソフトラベルに基づく知識蒸留法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:40:19Z) - Garain at SemEval-2020 Task 12: Sequence based Deep Learning for
Categorizing Offensive Language in Social Media [3.236217153362305]
SemEval-2020 Task 12: OffenseEval: Multilingual Offensive Language Identification in Social Media (英語)
データセットマクロ全体の25%のトレーニングシステムでは,f1スコアが47.763%であった。
論文 参考訳(メタデータ) (2020-09-02T17:09:29Z) - Meta-Learning with Context-Agnostic Initialisations [86.47040878540139]
メタ学習プロセスにコンテキスト・逆成分を導入する。
これにより、コンテキストに依存しないタスクを一般化したターゲットへの微調整の初期化が実現される。
我々は,3つのメタ学習アルゴリズムと2つの問題に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-07-29T08:08:38Z) - Duluth at SemEval-2019 Task 6: Lexical Approaches to Identify and
Categorize Offensive Tweets [0.0]
本稿では,SemEval-2019 Task 6, Identification and Categorizing Offensive Language in Social Media (OffensEval)に参加するシステムについて述べる。
これらのシステムのほとんどは、手動でラベル付けされたトレーニングデータに見られる語彙的特徴から分類器を構築する従来の機械学習アプローチを採用していた。
課題Aでは103位,課題Bでは39位,課題Cでは65位,課題Cでは44位であった。
論文 参考訳(メタデータ) (2020-07-25T14:56:10Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。