論文の概要: MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with
Pre-trained Language Models for Toxic Spans Detection
- arxiv url: http://arxiv.org/abs/2104.04739v1
- Date: Sat, 10 Apr 2021 11:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 04:43:19.731461
- Title: MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with
Pre-trained Language Models for Toxic Spans Detection
- Title(参考訳): MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with Pre-trained Language Models for Toxic Spans Detection
- Authors: Mikhail Kotyushev, Anna Glazkova, Dmitry Morozov
- Abstract要約: BERTベースのニューラルネットワークと,トークンをスパンに組み合わせた後処理を用いたアンサンブルモデルを開発した。
各種アンサンブル法を用いて有毒なスパン識別のための事前学習言語モデルの評価を行い,ベースラインの細調整BERTモデルに対して大幅な改良を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our system for SemEval-2021 Task 5 on Toxic Spans
Detection. We developed ensemble models using BERT-based neural architectures
and post-processing to combine tokens into spans. We evaluated several
pre-trained language models using various ensemble techniques for toxic span
identification and achieved sizable improvements over our baseline fine-tuned
BERT models. Finally, our system obtained a F1-score of 67.55% on test data.
- Abstract(参考訳): 本稿では,有害スパンズ検出におけるSemEval-2021 Task 5について述べる。
BERTベースのニューラルネットワークと,トークンをスパンに組み合わせた後処理を用いたアンサンブルモデルを開発した。
各種アンサンブル手法を用いて各種事前学習言語モデルの評価を行い,ベースラインの細調整BERTモデルに対して大幅な改良を行った。
最後に,試験データからf1-scoreの67.55%を得た。
関連論文リスト
- Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - UoB at SemEval-2021 Task 5: Extending Pre-Trained Language Models to
Include Task and Domain-Specific Information for Toxic Span Prediction [0.8376091455761259]
Toxicityはソーシャルメディアで広く普及しており、オンラインコミュニティの健康に大きな脅威をもたらしている。
近年,多くのNLPタスクにおいて最先端の成果を達成している事前学習型言語モデルの導入により,自然言語処理へのアプローチ方法が変化している。
論文 参考訳(メタデータ) (2021-10-07T18:29:06Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans
Detection [0.7197592390105455]
Semeval-2021, Task 5 - Toxic Spans DetectionはJigsaw Unintended Biasデータセットのサブセットの新たなアノテーションに基づいている。
このタスクでは、参加者はメッセージに有害な短いコメントで文字スパンを自動的に検出しなければならなかった。
本モデルは,トランスフォーマーベースモデルの微調整過程において,半教師付き環境で仮想適応トレーニングを適用することを検討する。
論文 参考訳(メタデータ) (2021-04-17T19:42:12Z) - UTNLP at SemEval-2021 Task 5: A Comparative Analysis of Toxic Span
Detection using Attention-based, Named Entity Recognition, and Ensemble
Models [6.562256987706127]
本稿では,有害なスパン検出に関するSemEval-2021共有タスク5における,我々のチーム,UTNLP,方法論と結果について述べる。
実験はキーワードベースのモデルから始まり、アテンションベース、名前付きエンティティベース、トランスフォーマーベース、アンサンブルモデルが続く。
私たちの最良のアプローチ、アンサンブルモデルは、競争の評価段階で0.684のF1を達成します。
論文 参考訳(メタデータ) (2021-04-10T13:56:03Z) - NLRG at SemEval-2021 Task 5: Toxic Spans Detection Leveraging BERT-based
Token Classification and Span Prediction Techniques [0.6850683267295249]
本稿では,トークン分類やスパン予測手法の簡易バージョンについて検討する。
どちらのアプローチにもBERT、RoBERTa、SpanBERTといったBERTベースのモデルを使用します。
そこで本研究では,Multi-Span,Span+Token,LSTM-CRFの4つのハイブリッド手法と,ユニオン/インターセクションを用いた予測オフセットの組み合わせについて検討する。
論文 参考訳(メタデータ) (2021-02-24T12:30:09Z) - Yseop at SemEval-2020 Task 5: Cascaded BERT Language Model for
Counterfactual Statement Analysis [0.0]
我々は、分類タスクにBERTベースモデルを使用し、シーケンス識別タスクを処理するために、ハイブリッドBERTマルチ層パーセプトロンシステムを構築した。
本実験により, 構文的・意味的特徴の導入は, 分類タスクにおけるシステム改善にはほとんど寄与しないが, それらの特徴を線形入力として用いて, モデルのシーケンス決定能力を微調整することにより, 2次タスクにおいてBiLSTM-CRFのような他の類似の複雑なシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T08:19:18Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。