論文の概要: Let-Mi: An Arabic Levantine Twitter Dataset for Misogynistic Language
- arxiv url: http://arxiv.org/abs/2103.10195v1
- Date: Thu, 18 Mar 2021 12:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 23:23:14.049559
- Title: Let-Mi: An Arabic Levantine Twitter Dataset for Misogynistic Language
- Title(参考訳): Let-Mi: アラビア語のレバントTwitterデータセット
- Authors: Hala Mulki, Bilal Ghanem
- Abstract要約: 今回我々は,アラビア語のミソジニーのための最初のベンチマークデータセットである,ミソジニズム言語(let-mi)のためのアラビア語レバンティンtwitterデータセットを紹介する。
Let-Miは、いくつかの最先端の機械学習システムによるバイナリ/マルチ/ターゲット分類タスクによる評価データセットとして使用されました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online misogyny has become an increasing worry for Arab women who experience
gender-based online abuse on a daily basis. Misogyny automatic detection
systems can assist in the prohibition of anti-women Arabic toxic content.
Developing such systems is hindered by the lack of the Arabic misogyny
benchmark datasets. In this paper, we introduce an Arabic Levantine Twitter
dataset for Misogynistic language (LeT-Mi) to be the first benchmark dataset
for Arabic misogyny. We further provide a detailed review of the dataset
creation and annotation phases. The consistency of the annotations for the
proposed dataset was emphasized through inter-rater agreement evaluation
measures. Moreover, Let-Mi was used as an evaluation dataset through
binary/multi-/target classification tasks conducted by several state-of-the-art
machine learning systems along with Multi-Task Learning (MTL) configuration.
The obtained results indicated that the performances achieved by the used
systems are consistent with state-of-the-art results for languages other than
Arabic, while employing MTL improved the performance of the misogyny/target
classification tasks.
- Abstract(参考訳): オンライン・ミソジニーは、ジェンダーベースのオンライン虐待を毎日経験するアラブ女性にとって、ますます心配になっている。
ミソジニー自動検出システムは、反女性アラビアの有害な内容の禁止に役立てることができる。
このようなシステムの開発は、アラビア語のmisogynyベンチマークデータセットの欠如によって妨げられている。
本稿では,アラビア語のミソジニーのための最初のベンチマークデータセットである,ミソジニズム言語のためのアラビア語レバンチンtwitterデータセット(let-mi)について紹介する。
さらに,データセット作成とアノテーションフェーズの詳細なレビューを行う。
提案したデータセットに対するアノテーションの整合性は,合意間評価によって強調された。
さらに、let-miは、複数の最先端機械学習システムとマルチタスク学習(mtl)構成によって実行されるバイナリ/マルチマルチ/ターゲット分類タスクを通じて評価データセットとして使用された。
その結果,使用済みシステムによる性能はアラビア語以外の言語に対する最先端の結果と一致し,MTLを用いることで誤用/ターゲット分類タスクの性能が向上した。
関連論文リスト
- The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Ensemble of pre-trained language models and data augmentation for hate speech detection from Arabic tweets [0.27309692684728604]
本研究では,従来手作業でラベル付けされていたアンサンブル学習と半教師付き学習を活用する新しい手法を提案する。
我々は、アラビア語のツイートを、非憎悪、一般憎悪、人種、宗教、セクシズムの5つのクラスに分類して、ベンチマークデータセットで実験を行った。
論文 参考訳(メタデータ) (2024-07-02T17:26:26Z) - A multitask learning framework for leveraging subjectivity of annotators to identify misogyny [47.175010006458436]
本研究では,誤識別システムの性能向上を目的としたマルチタスク学習手法を提案する。
6つのプロファイルグループにまたがる性別と年齢を考慮したモデル設計において,アノテータからさまざまな視点を取り入れた。
本研究は、コンテンツモデレーションを推進し、効果的なオンラインモデレーションシステムを構築するための多様な視点を受け入れることの重要性を強調している。
論文 参考訳(メタデータ) (2024-06-22T15:06:08Z) - Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Subtle Misogyny Detection and Mitigation: An Expert-Annotated Dataset [5.528106559459623]
Biaslyデータセットは、複数の専門分野の専門家やアノテータとのコラボレーションによって構築されている。
データセットは、分類、重度スコアの回帰、書き直しのためのテキスト生成など、さまざまなNLPタスクに使用することができる。
論文 参考訳(メタデータ) (2023-11-15T23:27:19Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Deep Multi-Task Models for Misogyny Identification and Categorization on
Arabic Social Media [6.6410040715586005]
本稿では,最初のアラビア語ミソジニー識別共有タスクについて提案する。
3つのマルチタスク学習モデルと1つのタスク学習モデルについて検討する。
入力テキストを符号化するために、我々のモデルは事前訓練されたMARBERT言語モデルに依存している。
論文 参考訳(メタデータ) (2022-06-16T18:54:37Z) - Fine-Tuning Approach for Arabic Offensive Language Detection System:
BERT-Based Model [0.0]
本研究では,アラビア語攻撃言語データセットにおける微調整の効果について検討した。
我々は4つのデータセットを個別に組み合わせて、オンラインアラビア攻撃コンテンツに関する知識を得るために複数の分類器を開発する。
論文 参考訳(メタデータ) (2022-02-07T17:26:35Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。