論文の概要: Garain at SemEval-2020 Task 12: Sequence based Deep Learning for
Categorizing Offensive Language in Social Media
- arxiv url: http://arxiv.org/abs/2009.01195v1
- Date: Wed, 2 Sep 2020 17:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:12:21.830900
- Title: Garain at SemEval-2020 Task 12: Sequence based Deep Learning for
Categorizing Offensive Language in Social Media
- Title(参考訳): SemEval-2020 Task 12: ソーシャルメディアにおける攻撃言語分類のためのシーケンスに基づくディープラーニング
- Authors: Avishek Garain
- Abstract要約: SemEval-2020 Task 12: OffenseEval: Multilingual Offensive Language Identification in Social Media (英語)
データセットマクロ全体の25%のトレーニングシステムでは,f1スコアが47.763%であった。
- 参考スコア(独自算出の注目度): 3.236217153362305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SemEval-2020 Task 12 was OffenseEval: Multilingual Offensive Language
Identification in Social Media (Zampieri et al., 2020). The task was subdivided
into multiple languages and datasets were provided for each one. The task was
further divided into three sub-tasks: offensive language identification,
automatic categorization of offense types, and offense target identification. I
have participated in the task-C, that is, offense target identification. For
preparing the proposed system, I have made use of Deep Learning networks like
LSTMs and frameworks like Keras which combine the bag of words model with
automatically generated sequence based features and manually extracted features
from the given dataset. My system on training on 25% of the whole dataset
achieves macro averaged f1 score of 47.763%.
- Abstract(参考訳): SemEval-2020 Task 12 was OffenseEval: Multilingual Offensive Language Identification in Social Media (Zampieri et al., 2020)。
タスクは複数の言語に分割され、それぞれにデータセットが提供された。
さらに、攻撃的言語識別、犯罪種別の自動分類、犯罪標的識別の3つのサブタスクに分けられた。
私はtask-c、すなわち攻撃対象識別に参加しました。
提案システムの作成には,lstmsのような深層学習ネットワークと,単語の袋型モデルと自動生成したシーケンスベース特徴と,与えられたデータセットから手動で抽出した特徴を組み合わせたkerasなどのフレームワークを用いた。
データセット全体の25%のトレーニングシステムは、マクロ平均f1スコア47.763%を達成する。
関連論文リスト
- DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - Identifying and Categorizing Offensive Language in Social Media [0.0]
本研究は,SemEval 2019 Task 6: OffensEval用に構築された分類システムについて述べる。
私たちは、最良の結果を得るために、機械学習とディープラーニングモデルとデータ前処理とサンプリングテクニックをトレーニングしました。
論文 参考訳(メタデータ) (2021-04-10T22:53:43Z) - Galileo at SemEval-2020 Task 12: Multi-lingual Learning for Offensive
Language Identification using Pre-trained Language Models [11.868582973877626]
本稿では,ソーシャルメディアにおける攻撃的言語の検出と分類に関するSemEval-2020 Task 12におけるガリレオの業績について述べる。
攻撃的言語同定のために,事前学習型言語モデル,ERNIE,XLM-Rを用いた多言語手法を提案する。
攻撃的言語分類法として,複数の教師付きモデルによって生成されたソフトラベルに基づく知識蒸留法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:40:19Z) - WOLI at SemEval-2020 Task 12: Arabic Offensive Language Identification
on Different Twitter Datasets [0.0]
ソーシャルメディア上で攻撃的言語と戦うための鍵は、自動攻撃的言語検出システムの存在である。
本稿では,Macro-F1 86.9%の52人中10位にランクインした共有タスクに対して,WideBot AI Labが提出したシステムについて述べる。
また、CNN、ハイウェイネットワーク、Bi-LSTM、アテンション層を含むシステムの予測能力を向上するニューラルネットワークアプローチも導入しました。
論文 参考訳(メタデータ) (2020-09-11T14:10:03Z) - Duluth at SemEval-2020 Task 12: Offensive Tweet Identification in
English with Logistic Regression [0.0]
本稿では,Duluth SemEval--2020 Task 12, Multilingual Offensive Language Identification in Social Media (OffensEval--2020)に参加するシステムについて述べる。
私たちは、タスクオーガナイザが利用可能な遠方の教師付きトレーニングデータに基づいてモデルをトレーニングし、他のリソースを使用しませんでした。
予想通り,タスクAでは85の79位,タスクBでは43の34位,タスクCでは39の24位であった。
論文 参考訳(メタデータ) (2020-07-25T14:49:31Z) - SemEval-2020 Task 12: Multilingual Offensive Language Identification in
Social Media (OffensEval 2020) [33.66689662526814]
ソーシャルメディアにおける多言語攻撃言語識別に関するSemEval-2020 Task 12の結果と主な成果を報告する(OffensEval 2020)。
OffensEval 2020は、SemEval-2020で最も人気のあるタスクの1つで、すべてのサブタスク、およびすべての言語で多くの参加者を集めている。
528チームが参加し、145チームが評価期間中にシステムを提出し、70チームがシステム説明書を提出した。
論文 参考訳(メタデータ) (2020-06-12T14:39:40Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。