論文の概要: Sexism Prediction in Spanish and English Tweets Using Monolingual and
Multilingual BERT and Ensemble Models
- arxiv url: http://arxiv.org/abs/2111.04551v1
- Date: Mon, 8 Nov 2021 15:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 14:07:14.475568
- Title: Sexism Prediction in Spanish and English Tweets Using Monolingual and
Multilingual BERT and Ensemble Models
- Title(参考訳): 単言語および多言語bertとアンサンブルモデルを用いたスペイン語および英語ツイートにおける性差別予測
- Authors: Angel Felipe Magnoss\~ao de Paula and Roberto Fray da Silva and Ipek
Baris Schlicht
- Abstract要約: 本研究では、多言語・単言語BERTとデータポイントの翻訳とアンサンブル戦略を用いて、性差別の識別と分類を英語とスペイン語で行うシステムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The popularity of social media has created problems such as hate speech and
sexism. The identification and classification of sexism in social media are
very relevant tasks, as they would allow building a healthier social
environment. Nevertheless, these tasks are considerably challenging. This work
proposes a system to use multilingual and monolingual BERT and data points
translation and ensemble strategies for sexism identification and
classification in English and Spanish. It was conducted in the context of the
sEXism Identification in Social neTworks shared 2021 (EXIST 2021) task,
proposed by the Iberian Languages Evaluation Forum (IberLEF). The proposed
system and its main components are described, and an in-depth hyperparameters
analysis is conducted. The main results observed were: (i) the system obtained
better results than the baseline model (multilingual BERT); (ii) ensemble
models obtained better results than monolingual models; and (iii) an ensemble
model considering all individual models and the best standardized values
obtained the best accuracies and F1-scores for both tasks. This work obtained
first place in both tasks at EXIST, with the highest accuracies (0.780 for task
1 and 0.658 for task 2) and F1-scores (F1-binary of 0.780 for task 1 and
F1-macro of 0.579 for task 2).
- Abstract(参考訳): ソーシャルメディアの人気はヘイトスピーチや性差別といった問題を生み出した。
ソーシャルメディアにおける性差別の識別と分類は、より健康的な社会環境の構築を可能にするため、非常に重要なタスクである。
しかし、これらの課題はかなり難しい。
本研究は、英語とスペイン語における性差別の識別と分類のための多言語・単言語翻訳とデータポイント翻訳とアンサンブル戦略を用いたシステムを提案する。
これは、Iberian Languages Evaluation Forum (IberLEF)によって提案された2021(EXIST 2021)タスクを共用するSocial neTworksのsexism Identificationの文脈で実施された。
提案システムとその主成分について述べるとともに, 深度ハイパーパラメータ解析を行った。
主な結果は次の通りである。
(i)ベースラインモデル(multilingual BERT)よりも優れた結果を得たシステム。
(ii)単言語モデルよりもより良い結果を得たアンサンブルモデル、及び
3)全ての個別モデルと最適な標準値を考慮したアンサンブルモデルが,両タスクの最良の精度とF1スコアを得た。
この研究は、EXISTの両タスクにおいて、最も高い精度(タスク1は0.780、タスク2は0.658)とF1スコア(タスク1は0.780、タスク2はF1マクロ)で第一位を獲得した。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - AI-UPV at EXIST 2023 -- Sexism Characterization Using Large Language
Models Under The Learning with Disagreements Regime [2.4261434441245897]
本稿では,CLEF 2023のEXIST (sexism Identification in Social networks) LabへのAI-UPVチームの参加について述べる。
提案手法は、性差別の識別と特徴付けの課題を、不一致のパラダイムによる学習の下で解決することを目的としている。
提案システムは、大きな言語モデル(mBERTとXLM-RoBERTa)と、英語とスペイン語で性差別の識別と分類のためのアンサンブル戦略を使用する。
論文 参考訳(メタデータ) (2023-07-07T04:49:26Z) - HausaNLP at SemEval-2023 Task 10: Transfer Learning, Synthetic Data and
Side-Information for Multi-Level Sexism Classification [0.007696728525672149]
SemEval-2023 Task 10: Explainable Detection of Online Sexism (EDOS) task。
XLM-T (sentiment classification) と HateBERT (same domain - Reddit) の2つの言語モデルを用いて,マルチレベル分類をSexist と not Sexist に移行する効果を検討した。
論文 参考訳(メタデータ) (2023-04-28T20:03:46Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - AI-UPV at IberLEF-2021 DETOXIS task: Toxicity Detection in
Immigration-Related Web News Comments Using Transformers and Statistical
Models [0.0]
我々は,Webニュース記事に対するコメントにおいて,xenophobiaを検出するための正確なモデルを実装した。
我々はF1スコア0.5996で第1タスク2オフィシャルランキング3位を獲得し、CEM0.7142で第2タスク2オフィシャルランキング6位を獲得した。
その結果, (i) BERTモデルはテキストコメントにおける毒性検出の統計モデルよりも優れた結果が得られること, (ii) 単言語BERTモデルはテキストコメントにおける毒性検出における多言語BERTモデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T14:24:21Z) - Automatic Sexism Detection with Multilingual Transformer Models [0.0]
本稿では,AIT_FHSTPチームによる2つのsexism Identification in Social neTworksタスクに対するEXIST 2021ベンチマークの貢献について述べる。
これらの課題を解決するために,多言語BERTとXLM-Rをベースとした2つの多言語変換モデルを適用した。
我々のアプローチでは、トランスフォーマーを性差別的コンテンツの検出に適用するために、2つの異なる戦略を用いています。
両方のタスクに対して、最高のモデルは、EXISTデータと追加データセットを教師なしで事前トレーニングしたXLM-Rです。
論文 参考訳(メタデータ) (2021-06-09T08:45:51Z) - How True is GPT-2? An Empirical Analysis of Intersectional Occupational
Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。
一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。
特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文 参考訳(メタデータ) (2021-02-08T11:10:27Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z) - FiSSA at SemEval-2020 Task 9: Fine-tuned For Feelings [2.362412515574206]
本稿では,スペイン語と英語の混在するソーシャルメディアデータを用いた感情分類手法を提案する。
単言語モデルと多言語モデルの両方を標準微調整法を用いて検討する。
2段階の微調整により、ベースモデルよりも感情分類性能が向上するが、大規模多言語XLM-RoBERTaモデルではF1スコアが最適である。
論文 参考訳(メタデータ) (2020-07-24T14:48:27Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。