論文の概要: Automatic Sexism Detection with Multilingual Transformer Models
- arxiv url: http://arxiv.org/abs/2106.04908v1
- Date: Wed, 9 Jun 2021 08:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:29:56.492509
- Title: Automatic Sexism Detection with Multilingual Transformer Models
- Title(参考訳): 多言語トランスフォーマーモデルによる性差の自動検出
- Authors: Sch\"utz Mina, Boeck Jaqueline, Liakhovets Daria, Slijep\v{c}evi\'c
Djordje, Kirchknopf Armin, Hecht Manuel, Bogensperger Johannes, Schlarb Sven,
Schindler Alexander, Zeppelzauer Matthias
- Abstract要約: 本稿では,AIT_FHSTPチームによる2つのsexism Identification in Social neTworksタスクに対するEXIST 2021ベンチマークの貢献について述べる。
これらの課題を解決するために,多言語BERTとXLM-Rをベースとした2つの多言語変換モデルを適用した。
我々のアプローチでは、トランスフォーマーを性差別的コンテンツの検出に適用するために、2つの異なる戦略を用いています。
両方のタスクに対して、最高のモデルは、EXISTデータと追加データセットを教師なしで事前トレーニングしたXLM-Rです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sexism has become an increasingly major problem on social networks during the
last years. The first shared task on sEXism Identification in Social neTworks
(EXIST) at IberLEF 2021 is an international competition in the field of Natural
Language Processing (NLP) with the aim to automatically identify sexism in
social media content by applying machine learning methods. Thereby sexism
detection is formulated as a coarse (binary) classification problem and a
fine-grained classification task that distinguishes multiple types of sexist
content (e.g., dominance, stereotyping, and objectification). This paper
presents the contribution of the AIT_FHSTP team at the EXIST2021 benchmark for
both tasks. To solve the tasks we applied two multilingual transformer models,
one based on multilingual BERT and one based on XLM-R. Our approach uses two
different strategies to adapt the transformers to the detection of sexist
content: first, unsupervised pre-training with additional data and second,
supervised fine-tuning with additional and augmented data. For both tasks our
best model is XLM-R with unsupervised pre-training on the EXIST data and
additional datasets and fine-tuning on the provided dataset. The best run for
the binary classification (task 1) achieves a macro F1-score of 0.7752 and
scores 5th rank in the benchmark; for the multiclass classification (task 2)
our best submission scores 6th rank with a macro F1-score of 0.5589.
- Abstract(参考訳): 近年、性差別はソーシャルネットワークでますます大きな問題となっている。
IberleF 2021におけるSexism Identification in Social NeTworks(EXIST)の最初の共有タスクは、自然言語処理(NLP)分野における国際コンペティションであり、機械学習手法を適用してソーシャルメディアコンテンツにおける性差別を自動的に識別することを目的としている。
これにより、セクシズム検出は、粗い(バイナリ)分類問題と、複数のタイプのセクシズムコンテンツ(支配、ステレオタイピング、客観化など)を区別するきめ細かい分類タスクとして定式化される。
本稿では,AIT_FHSTPチームの両タスクに対するEXIST2021ベンチマークにおける貢献について述べる。
課題を解決するために,マルチリンガルBERTとXLM-Rをベースとした2つの多言語トランスフォーマーモデルを適用した。本手法では,トランスフォーマーを性差別的コンテンツの検出に適応させる2つの戦略を用いて,追加データによる教師なし事前学習,追加データと拡張データによる教師付き微調整を行った。
両方のタスクにおいて、最高のモデルはXLM-Rで、EXISTデータと追加のデータセットと提供されたデータセットの微調整を教師なしで事前トレーニングします。
2進分類(タスク1)のベストランは、マクロF1スコアが0.7752、ベンチマークで5位、マルチクラス分類(タスク2)のベストスコアが6位、マクロF1スコアが0.5589である。
関連論文リスト
- GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - LCT-1 at SemEval-2023 Task 10: Pre-training and Multi-task Learning for
Sexism Detection and Classification [0.0]
SemEval-2023 Task 10 on Explainable Detection of Online Sexismは、性差別の検出の説明可能性を高めることを目的としている。
我々のシステムは、さらなるドメイン適応型事前学習に基づいている。
実験では、マルチタスク学習は性差別検出のための標準的な微調整と同等に実行される。
論文 参考訳(メタデータ) (2023-06-08T09:56:57Z) - HausaNLP at SemEval-2023 Task 10: Transfer Learning, Synthetic Data and
Side-Information for Multi-Level Sexism Classification [0.007696728525672149]
SemEval-2023 Task 10: Explainable Detection of Online Sexism (EDOS) task。
XLM-T (sentiment classification) と HateBERT (same domain - Reddit) の2つの言語モデルを用いて,マルチレベル分類をSexist と not Sexist に移行する効果を検討した。
論文 参考訳(メタデータ) (2023-04-28T20:03:46Z) - Attention at SemEval-2023 Task 10: Explainable Detection of Online
Sexism (EDOS) [15.52876591707497]
我々は、分類タスクの形式でモデルによってなされた決定の解釈可能性、信頼、理解に取り組んできた。
最初のタスクは、バイナリ性検出を決定することで構成される。
第二の課題は性差別のカテゴリーを記述することである。
第3の課題は、よりきめ細かい性差別のカテゴリーを記述することである。
論文 参考訳(メタデータ) (2023-04-10T14:24:52Z) - Change is Hard: A Closer Look at Subpopulation Shift [48.0369745740936]
本稿では,部分群における共通シフトを識別し,説明する統一的なフレームワークを提案する。
次に、ビジョン、言語、医療領域の12の現実世界のデータセットで評価された20の最先端アルゴリズムのベンチマークを作成します。
論文 参考訳(メタデータ) (2023-02-23T18:59:56Z) - Rethinking the Two-Stage Framework for Grounded Situation Recognition [61.93345308377144]
接地状況認識は「人間のような」事象理解に向けた重要なステップである。
既存のGSR手法では、第1段階で動詞を予測し、第2段階での意味的役割を検出するという、2段階の枠組みを採用している。
本稿では,CFVM (Coarse-to-Fine Verb Model) と Transformer-based Noun Model (TNM) で構成される新しいGSR用SituFormerを提案する。
論文 参考訳(メタデータ) (2021-12-10T08:10:56Z) - Sexism Prediction in Spanish and English Tweets Using Monolingual and
Multilingual BERT and Ensemble Models [0.0]
本研究では、多言語・単言語BERTとデータポイントの翻訳とアンサンブル戦略を用いて、性差別の識別と分類を英語とスペイン語で行うシステムを提案する。
論文 参考訳(メタデータ) (2021-11-08T15:01:06Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Phonemer at WNUT-2020 Task 2: Sequence Classification Using COVID
Twitter BERT and Bagging Ensemble Technique based on Plurality Voting [0.0]
新型コロナウイルス(COVID-19)に関連する英語のつぶやきを自動的に識別するシステムを開発した。
最終アプローチでは0.9037のF1スコアを達成し,F1スコアを評価基準として総合6位にランク付けした。
論文 参考訳(メタデータ) (2020-10-01T10:54:54Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。