論文の概要: NLRG at SemEval-2021 Task 5: Toxic Spans Detection Leveraging BERT-based
Token Classification and Span Prediction Techniques
- arxiv url: http://arxiv.org/abs/2102.12254v1
- Date: Wed, 24 Feb 2021 12:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:44:49.386985
- Title: NLRG at SemEval-2021 Task 5: Toxic Spans Detection Leveraging BERT-based
Token Classification and Span Prediction Techniques
- Title(参考訳): NLRG - SemEval-2021 Task 5: Toxic Spans Detection Usingeraging BERT-based Token Classification and Span Prediction Techniques
- Authors: Gunjan Chhablani, Yash Bhartia, Abheesht Sharma, Harshit Pandey, Shan
Suthaharan
- Abstract要約: 本稿では,トークン分類やスパン予測手法の簡易バージョンについて検討する。
どちらのアプローチにもBERT、RoBERTa、SpanBERTといったBERTベースのモデルを使用します。
そこで本研究では,Multi-Span,Span+Token,LSTM-CRFの4つのハイブリッド手法と,ユニオン/インターセクションを用いた予測オフセットの組み合わせについて検討する。
- 参考スコア(独自算出の注目度): 0.6850683267295249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Toxicity detection of text has been a popular NLP task in the recent years.
In SemEval-2021 Task-5 Toxic Spans Detection, the focus is on detecting toxic
spans within passages. Most state-of-the-art span detection approaches employ
various techniques, each of which can be broadly classified into Token
Classification or Span Prediction approaches. In our paper, we explore simple
versions of both of these approaches and their performance on the task.
Specifically, we use BERT-based models -- BERT, RoBERTa, and SpanBERT for both
approaches. We also combine these approaches and modify them to bring
improvements for Toxic Spans prediction. To this end, we investigate results on
four hybrid approaches -- Multi-Span, Span+Token, LSTM-CRF, and a combination
of predicted offsets using union/intersection. Additionally, we perform a
thorough ablative analysis and analyze our observed results. Our best
submission -- a combination of SpanBERT Span Predictor and RoBERTa Token
Classifier predictions -- achieves an F1 score of 0.6753 on the test set. Our
best post-eval F1 score is 0.6895 on intersection of predicted offsets from
top-3 RoBERTa Token Classification checkpoints. These approaches improve the
performance by 3% on average than those of the shared baseline models -- RNNSL
and SpaCy NER.
- Abstract(参考訳): 近年,テキストの毒性検出はNLPタスクとして人気がある。
SemEval-2021 Task-5 Toxic Spans Detectionでは、パス内の毒性スパンの検出に焦点を当てています。
多くの最先端のスパン検出手法は様々な手法を用いており、それぞれがトークン分類やスパン予測手法に大きく分類できる。
本稿では,これら2つのアプローチの単純バージョンと,そのタスクにおけるパフォーマンスについて検討する。
具体的には、両方のアプローチにBERTベースのモデル -- BERT、RoBERTa、SpanBERTを使用します。
また、これらのアプローチを組み合わせて修正し、Toxic Spans予測を改善します。
そこで本研究では,Multi-Span,Span+Token,LSTM-CRFの4つのハイブリッド手法と,ユニオン/インターセクションを用いた予測オフセットの組み合わせについて検討する。
さらに, 詳細なアブレーション解析を行い, 観察結果を分析した。
SpanBERT Span PredictorとRoBERTa Token Classifier予測の組み合わせである私たちの最高の提出は、テストセットで0.6753のF1スコアを達成します。
我々のF1ベストスコアは、トップ3のRoBERTa Token分類チェックポイントから予測オフセットの交点における0.6895である。
これらのアプローチは、共有ベースラインモデルであるRNNSLとSpaCy NERよりも平均で3%パフォーマンスを向上させます。
関連論文リスト
- A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - Combine and Conquer: A Meta-Analysis on Data Shift and Out-of-Distribution Detection [30.377446496559635]
本稿では,アウト・オブ・ディストリビューション(OOD)検出スコアをシームレスに組み合わせるための普遍的アプローチを提案する。
我々のフレームワークは、検出スコアにおける将来の発展にとって容易であり、この文脈で意思決定境界を結合する最初の手段である。
論文 参考訳(メタデータ) (2024-06-23T08:16:44Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - CLaC at SemEval-2023 Task 2: Comparing Span-Prediction and
Sequence-Labeling approaches for NER [0.554780083433538]
本稿では,MultiCoNER 2タスクに対するCLaC提案を要約する。
NERの2つの一般的なアプローチ、すなわちSequence LabelingとSpan Predictionを比較した。
テストデータ上での最高のシーケンスラベリングシステムよりも,最高のSpan予測システムの方が若干パフォーマンスがよいことが分かりました。
論文 参考訳(メタデータ) (2023-05-05T20:49:40Z) - NP-Match: Towards a New Probabilistic Model for Semi-Supervised Learning [86.60013228560452]
半教師付き学習(SSL)は近年広く研究されており、ラベルのないデータを活用する効果的な方法である。
本研究では,ニューラルネットワーク(NP)を半教師付き画像分類タスクに調整し,NP-Matchと呼ばれる新しい手法を提案する。
NP-Matchは、予測を行う際のデータポイントを暗黙的に比較し、その結果、ラベル付けされていない各データポイントの予測がラベル付きデータポイントに影響される。
論文 参考訳(メタデータ) (2023-01-31T11:44:45Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans
Detection [0.7197592390105455]
Semeval-2021, Task 5 - Toxic Spans DetectionはJigsaw Unintended Biasデータセットのサブセットの新たなアノテーションに基づいている。
このタスクでは、参加者はメッセージに有害な短いコメントで文字スパンを自動的に検出しなければならなかった。
本モデルは,トランスフォーマーベースモデルの微調整過程において,半教師付き環境で仮想適応トレーニングを適用することを検討する。
論文 参考訳(メタデータ) (2021-04-17T19:42:12Z) - MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with
Pre-trained Language Models for Toxic Spans Detection [0.0]
BERTベースのニューラルネットワークと,トークンをスパンに組み合わせた後処理を用いたアンサンブルモデルを開発した。
各種アンサンブル法を用いて有毒なスパン識別のための事前学習言語モデルの評価を行い,ベースラインの細調整BERTモデルに対して大幅な改良を行った。
論文 参考訳(メタデータ) (2021-04-10T11:27:32Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。