論文の概要: UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans
Detection
- arxiv url: http://arxiv.org/abs/2104.08635v1
- Date: Sat, 17 Apr 2021 19:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 06:49:10.991270
- Title: UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans
Detection
- Title(参考訳): UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans Detection
- Authors: Andrei Paraschiv, Dumitru-Clementin Cercel, Mihai Dascalu
- Abstract要約: Semeval-2021, Task 5 - Toxic Spans DetectionはJigsaw Unintended Biasデータセットのサブセットの新たなアノテーションに基づいている。
このタスクでは、参加者はメッセージに有害な短いコメントで文字スパンを自動的に検出しなければならなかった。
本モデルは,トランスフォーマーベースモデルの微調整過程において,半教師付き環境で仮想適応トレーニングを適用することを検討する。
- 参考スコア(独自算出の注目度): 0.7197592390105455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The real-world impact of polarization and toxicity in the online sphere
marked the end of 2020 and the beginning of this year in a negative way.
Semeval-2021, Task 5 - Toxic Spans Detection is based on a novel annotation of
a subset of the Jigsaw Unintended Bias dataset and is the first language
toxicity detection task dedicated to identifying the toxicity-level spans. For
this task, participants had to automatically detect character spans in short
comments that render the message as toxic. Our model considers applying Virtual
Adversarial Training in a semi-supervised setting during the fine-tuning
process of several Transformer-based models (i.e., BERT and RoBERTa), in
combination with Conditional Random Fields. Our approach leads to performance
improvements and more robust models, enabling us to achieve an F1-score of
65.73% in the official submission and an F1-score of 66.13% after further
tuning during post-evaluation.
- Abstract(参考訳): オンライン界における偏光と毒性の現実世界への影響は、2020年末と今年の初めを否定的に捉えた。
Semeval-2021, Task 5 - Toxic Spans DetectionはJigsaw Unintended Biasデータセットのサブセットの新たなアノテーションに基づいており、毒性レベルのスパンを特定するための最初の言語毒性検出タスクである。
このタスクでは、参加者はメッセージに有害な短いコメントで文字スパンを自動的に検出しなければならなかった。
本モデルは,複数のトランスフォーマーベースモデル(BERT,RoBERTa)の微調整過程において,条件付きランダムフィールドと組み合わせた半教師付き環境で仮想適応トレーニングを適用することを検討する。
我々のアプローチは、パフォーマンス改善とより堅牢なモデルにつながり、公式提出時のf1-scoreの65.73%、再評価後のチューニング後のf1-scoreの66.13%を達成することができます。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Persistent Pre-Training Poisoning of LLMs [71.53046642099142]
我々の研究は、事前学習中に言語モデルも妥協できるかどうかを初めて評価した。
我々は、有害な敵に対する影響を測定するために、スクラッチから一連のLSMを事前訓練する。
我々の主な結果は、モデルの事前トレーニングデータセットの0.1%しか中毒にならず、4つの攻撃のうち3つがポストトレーニングを通じて持続するのに十分であるということです。
論文 参考訳(メタデータ) (2024-10-17T16:27:13Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - UoB at SemEval-2021 Task 5: Extending Pre-Trained Language Models to
Include Task and Domain-Specific Information for Toxic Span Prediction [0.8376091455761259]
Toxicityはソーシャルメディアで広く普及しており、オンラインコミュニティの健康に大きな脅威をもたらしている。
近年,多くのNLPタスクにおいて最先端の成果を達成している事前学習型言語モデルの導入により,自然言語処理へのアプローチ方法が変化している。
論文 参考訳(メタデータ) (2021-10-07T18:29:06Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - UTNLP at SemEval-2021 Task 5: A Comparative Analysis of Toxic Span
Detection using Attention-based, Named Entity Recognition, and Ensemble
Models [6.562256987706127]
本稿では,有害なスパン検出に関するSemEval-2021共有タスク5における,我々のチーム,UTNLP,方法論と結果について述べる。
実験はキーワードベースのモデルから始まり、アテンションベース、名前付きエンティティベース、トランスフォーマーベース、アンサンブルモデルが続く。
私たちの最良のアプローチ、アンサンブルモデルは、競争の評価段階で0.684のF1を達成します。
論文 参考訳(メタデータ) (2021-04-10T13:56:03Z) - MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with
Pre-trained Language Models for Toxic Spans Detection [0.0]
BERTベースのニューラルネットワークと,トークンをスパンに組み合わせた後処理を用いたアンサンブルモデルを開発した。
各種アンサンブル法を用いて有毒なスパン識別のための事前学習言語モデルの評価を行い,ベースラインの細調整BERTモデルに対して大幅な改良を行った。
論文 参考訳(メタデータ) (2021-04-10T11:27:32Z) - WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for
Detecting Toxic Spans [2.4737119633827174]
近年,ソーシャルメディアの普及により,オンラインプラットフォーム上での有害コンテンツや攻撃コンテンツの発生が増加している。
ソーシャルメディアプラットフォームは自動検出手法の開発に取り組んでおり、この攻撃的コンテンツの混乱に対処するために人間のモデレーターを使用している。
論文 参考訳(メタデータ) (2021-04-09T22:52:26Z) - NLRG at SemEval-2021 Task 5: Toxic Spans Detection Leveraging BERT-based
Token Classification and Span Prediction Techniques [0.6850683267295249]
本稿では,トークン分類やスパン予測手法の簡易バージョンについて検討する。
どちらのアプローチにもBERT、RoBERTa、SpanBERTといったBERTベースのモデルを使用します。
そこで本研究では,Multi-Span,Span+Token,LSTM-CRFの4つのハイブリッド手法と,ユニオン/インターセクションを用いた予測オフセットの組み合わせについて検討する。
論文 参考訳(メタデータ) (2021-02-24T12:30:09Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。