論文の概要: Cisco at SemEval-2021 Task 5: What's Toxic?: Leveraging Transformers for
Multiple Toxic Span Extraction from Online Comments
- arxiv url: http://arxiv.org/abs/2105.13959v1
- Date: Fri, 28 May 2021 16:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:52:29.303319
- Title: Cisco at SemEval-2021 Task 5: What's Toxic?: Leveraging Transformers for
Multiple Toxic Span Extraction from Online Comments
- Title(参考訳): Cisco at SemEval-2021 Task 5: What's Toxic?
オンラインコメントからの複数トキシックスパン抽出のための変換器の活用
- Authors: Sreyan Ghosh, Sonal Kumar
- Abstract要約: 本稿では,SemEval-2021 Task 5: Toxic Spans DetectionのためのチームCiscoによって提案されたシステムについて述べる。
我々は主に、シーケンスタグ付けアプローチと依存性解析アプローチの2つの方法でこの問題に取り組みます。
このアプローチにおける最高のパフォーマンスアーキテクチャもまた、F1スコア0.6922で、全体として最高のパフォーマンスアーキテクチャであることを証明しました。
- 参考スコア(独自算出の注目度): 1.332560004325655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social network platforms are generally used to share positive, constructive,
and insightful content. However, in recent times, people often get exposed to
objectionable content like threat, identity attacks, hate speech, insults,
obscene texts, offensive remarks or bullying. Existing work on toxic speech
detection focuses on binary classification or on differentiating toxic speech
among a small set of categories. This paper describes the system proposed by
team Cisco for SemEval-2021 Task 5: Toxic Spans Detection, the first shared
task focusing on detecting the spans in the text that attribute to its
toxicity, in English language. We approach this problem primarily in two ways:
a sequence tagging approach and a dependency parsing approach. In our sequence
tagging approach we tag each token in a sentence under a particular tagging
scheme. Our best performing architecture in this approach also proved to be our
best performing architecture overall with an F1 score of 0.6922, thereby
placing us 7th on the final evaluation phase leaderboard. We also explore a
dependency parsing approach where we extract spans from the input sentence
under the supervision of target span boundaries and rank our spans using a
biaffine model. Finally, we also provide a detailed analysis of our results and
model performance in our paper.
- Abstract(参考訳): ソーシャルネットワークプラットフォームは概して、ポジティブで建設的で、洞察に富んだコンテンツを共有するために使われる。
しかし、近年では、脅威、アイデンティティー攻撃、ヘイトスピーチ、侮辱、わいせつな文章、攻撃的な発言、いじめなどの不快なコンテンツに晒されることが多い。
有毒な音声検出に関する既存の研究は、いくつかのカテゴリーで二分分類や有毒な音声の識別に重点を置いている。
本稿では, team cisco が semeval-2021 タスク5: toxic spans detection のために提案したシステムについて述べる。
我々は主に、シーケンスタグ付けアプローチと依存性解析アプローチの2つの方法でこの問題に取り組みます。
シーケンスタグ付けアプローチでは、特定のタグ付け方式で各トークンを文にタグ付けします。
このアプローチにおける最高のパフォーマンスアーキテクチャは、F1スコアが0.6922であることから、全体として最高のパフォーマンスアーキテクチャであることが分かりました。
また,ターゲットスパン境界の監督下で入力文からスパンを抽出し,バイファインモデルを用いてスパンをランク付けする依存性解析手法についても検討する。
最後に,本論文では,結果の詳細な分析とモデル性能について述べる。
関連論文リスト
- Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Toxicity Detection for Indic Multilingual Social Media Content [0.0]
本稿では、emphIIIT-D Abusive Comment Identification Challengeにおいて、ShareChat/Mojが提供するデータを用いて、チーム「Moj Masti」によって提案されたシステムについて述べる。
我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-01-03T12:01:47Z) - UoT-UWF-PartAI at SemEval-2021 Task 5: Self Attention Based Bi-GRU with
Multi-Embedding Representation for Toxicity Highlighter [3.0586855806896045]
本稿では,トークンのマルチエンベディング表現を持つ自己アテンション型ゲートリカレントユニットを提案する。
実験の結果,提案手法はスパントークンの検出に非常に有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-27T13:18:28Z) - WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for
Detecting Toxic Spans [2.4737119633827174]
近年,ソーシャルメディアの普及により,オンラインプラットフォーム上での有害コンテンツや攻撃コンテンツの発生が増加している。
ソーシャルメディアプラットフォームは自動検出手法の開発に取り組んでおり、この攻撃的コンテンツの混乱に対処するために人間のモデレーターを使用している。
論文 参考訳(メタデータ) (2021-04-09T22:52:26Z) - Lone Pine at SemEval-2021 Task 5: Fine-Grained Detection of Hate Speech
Using BERToxic [2.4815579733050153]
本稿では, 有害スパン検出問題に対するアプローチについて述べる。
BERToxicは、事前に訓練されたBERTモデルを微調整して、与えられたテキスト中の有毒なテキストスパンを見つけるシステムである。
我々のシステムは、提供されたベースラインを著しく上回り、f1-score 0.683を達成し、91チーム中17位にlone pineを配置した。
論文 参考訳(メタデータ) (2021-04-08T04:46:14Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。