論文の概要: Cisco at SemEval-2021 Task 5: What's Toxic?: Leveraging Transformers for
Multiple Toxic Span Extraction from Online Comments
- arxiv url: http://arxiv.org/abs/2105.13959v1
- Date: Fri, 28 May 2021 16:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:52:29.303319
- Title: Cisco at SemEval-2021 Task 5: What's Toxic?: Leveraging Transformers for
Multiple Toxic Span Extraction from Online Comments
- Title(参考訳): Cisco at SemEval-2021 Task 5: What's Toxic?
オンラインコメントからの複数トキシックスパン抽出のための変換器の活用
- Authors: Sreyan Ghosh, Sonal Kumar
- Abstract要約: 本稿では,SemEval-2021 Task 5: Toxic Spans DetectionのためのチームCiscoによって提案されたシステムについて述べる。
我々は主に、シーケンスタグ付けアプローチと依存性解析アプローチの2つの方法でこの問題に取り組みます。
このアプローチにおける最高のパフォーマンスアーキテクチャもまた、F1スコア0.6922で、全体として最高のパフォーマンスアーキテクチャであることを証明しました。
- 参考スコア(独自算出の注目度): 1.332560004325655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social network platforms are generally used to share positive, constructive,
and insightful content. However, in recent times, people often get exposed to
objectionable content like threat, identity attacks, hate speech, insults,
obscene texts, offensive remarks or bullying. Existing work on toxic speech
detection focuses on binary classification or on differentiating toxic speech
among a small set of categories. This paper describes the system proposed by
team Cisco for SemEval-2021 Task 5: Toxic Spans Detection, the first shared
task focusing on detecting the spans in the text that attribute to its
toxicity, in English language. We approach this problem primarily in two ways:
a sequence tagging approach and a dependency parsing approach. In our sequence
tagging approach we tag each token in a sentence under a particular tagging
scheme. Our best performing architecture in this approach also proved to be our
best performing architecture overall with an F1 score of 0.6922, thereby
placing us 7th on the final evaluation phase leaderboard. We also explore a
dependency parsing approach where we extract spans from the input sentence
under the supervision of target span boundaries and rank our spans using a
biaffine model. Finally, we also provide a detailed analysis of our results and
model performance in our paper.
- Abstract(参考訳): ソーシャルネットワークプラットフォームは概して、ポジティブで建設的で、洞察に富んだコンテンツを共有するために使われる。
しかし、近年では、脅威、アイデンティティー攻撃、ヘイトスピーチ、侮辱、わいせつな文章、攻撃的な発言、いじめなどの不快なコンテンツに晒されることが多い。
有毒な音声検出に関する既存の研究は、いくつかのカテゴリーで二分分類や有毒な音声の識別に重点を置いている。
本稿では, team cisco が semeval-2021 タスク5: toxic spans detection のために提案したシステムについて述べる。
我々は主に、シーケンスタグ付けアプローチと依存性解析アプローチの2つの方法でこの問題に取り組みます。
シーケンスタグ付けアプローチでは、特定のタグ付け方式で各トークンを文にタグ付けします。
このアプローチにおける最高のパフォーマンスアーキテクチャは、F1スコアが0.6922であることから、全体として最高のパフォーマンスアーキテクチャであることが分かりました。
また,ターゲットスパン境界の監督下で入力文からスパンを抽出し,バイファインモデルを用いてスパンをランク付けする依存性解析手法についても検討する。
最後に,本論文では,結果の詳細な分析とモデル性能について述べる。
関連論文リスト
- Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Toxicity Detection for Indic Multilingual Social Media Content [0.0]
本稿では、emphIIIT-D Abusive Comment Identification Challengeにおいて、ShareChat/Mojが提供するデータを用いて、チーム「Moj Masti」によって提案されたシステムについて述べる。
我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-01-03T12:01:47Z) - UoT-UWF-PartAI at SemEval-2021 Task 5: Self Attention Based Bi-GRU with
Multi-Embedding Representation for Toxicity Highlighter [3.0586855806896045]
本稿では,トークンのマルチエンベディング表現を持つ自己アテンション型ゲートリカレントユニットを提案する。
実験の結果,提案手法はスパントークンの検出に非常に有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-27T13:18:28Z) - WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for
Detecting Toxic Spans [2.4737119633827174]
近年,ソーシャルメディアの普及により,オンラインプラットフォーム上での有害コンテンツや攻撃コンテンツの発生が増加している。
ソーシャルメディアプラットフォームは自動検出手法の開発に取り組んでおり、この攻撃的コンテンツの混乱に対処するために人間のモデレーターを使用している。
論文 参考訳(メタデータ) (2021-04-09T22:52:26Z) - Lone Pine at SemEval-2021 Task 5: Fine-Grained Detection of Hate Speech
Using BERToxic [2.4815579733050153]
本稿では, 有害スパン検出問題に対するアプローチについて述べる。
BERToxicは、事前に訓練されたBERTモデルを微調整して、与えられたテキスト中の有毒なテキストスパンを見つけるシステムである。
我々のシステムは、提供されたベースラインを著しく上回り、f1-score 0.683を達成し、91チーム中17位にlone pineを配置した。
論文 参考訳(メタデータ) (2021-04-08T04:46:14Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文 参考訳(メタデータ) (2020-03-13T10:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。