論文の概要: ArabDiscrim: A Decade-Long Arabic Facebook Corpus on Racism and Discrimination
- arxiv url: http://arxiv.org/abs/2605.22081v1
- Date: Thu, 21 May 2026 07:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.526792
- Title: ArabDiscrim: A Decade-Long Arabic Facebook Corpus on Racism and Discrimination
- Title(参考訳): アラブ・ディスククリム:ラシズムと差別に関する10年に及ぶアラビアのFacebookコーポレーション
- Authors: Wajdi Zaghouani, Shimaa Amer Ibrahim, Mabrouka Bessghaier, Houda Bouamor,
- Abstract要約: 人種差別と差別について議論する公的なアラビアのFacebook投稿293Kのコーパスと10年にわたる語彙資源であるArabDiscrimを紹介します。
既存のTwitter中心のデータセットとは異なり、A ArabDiscrimは、反応、共有、コメント、ページメタデータを含むプラットフォームネイティブなエンゲージメント信号を統合する。
- 参考スコア(独自算出の注目度): 1.6784509158098027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ArabDiscrim, a decade-long lexical resource and corpus of 293K public Arabic Facebook posts (2014--2024) discussing racism and discrimination. Unlike existing Twitter-centric datasets, ArabDiscrim integrates platform-native engagement signals, including reactions, shares, comments, and page metadata, enabling joint analysis of language and audience response. The resource includes 200 curated terms (100 racism-related and 100 discrimination-related) with morphological regex families (13+ inflections per lemma), and 20 discrimination axes capturing identity-based grounds for unequal treatment. It also provides explicit attribution patterns. Released under a restricted research-use license for ethical compliance with platform terms, ArabDiscrim supports weak supervision, axis-aware sampling, and platform ecology research. By bridging lexical depth and ecological validity, it establishes a foundation for fairness-oriented, platform-aware Arabic NLP.
- Abstract(参考訳): 人種差別と差別について議論する公的なアラビアのFacebook投稿293K(2014年-2024年)の10年にわたる語彙資源とコーパスであるArabDiscrimを紹介します。
既存のTwitter中心のデータセットとは異なり、A ArabDiscrimは、リアクション、共有、コメント、ページメタデータを含むプラットフォームネイティブなエンゲージメント信号を統合し、言語とオーディエンス応答のジョイント分析を可能にする。
このリソースは、モルフォロジー・レジェクス・ファミリー(レムマあたり13以上の屈折)を持つ200のキュレートされた用語(100の人種差別関連および100の差別関連)と、不平等な治療のためのアイデンティティベースの根拠をキャプチャする20の差別軸を含む。
また、明示的な帰属パターンも提供する。
ArabDiscrimは、プラットフォーム用語の倫理的遵守のために制限された研究用ライセンスの下でリリースされ、弱い監督、軸対応サンプリング、プラットフォーム生態研究をサポートする。
語彙の深さと生態的妥当性を橋渡しすることで、公正志向でプラットフォーム対応のアラビアNLPの基礎を確立する。
関連論文リスト
- Cohesion-6K: An Arabic Dataset for Analyzing Social Cohesion and Conflict in Online Discourse [0.6546712656847457]
本稿では,パレスチナのイスラエル占領に関連する6万件の公的なFacebook投稿の,手動およびChatGPTによる注釈付きデータセットを提案する。
Cohesion-6Kは、オンライン凝集と分極の研究のために透明で再現可能な資源を提供する。
論文 参考訳(メタデータ) (2026-05-21T13:16:28Z) - Audience Engagement with Arabic Women's Social Empowerment and Wellbeing: A Decadal Corpus [0.7665402410737511]
アラブ女性社会法人は、女性のエンパワーメントと社会福祉に関連する公的なアラブ系Facebook投稿252,487件の10年間のコレクションである。
コーパスは2013年から2024年にかけて77カ国の51,660ページから収集され、ユーザインタラクションは2億6700万を超えている。
論文 参考訳(メタデータ) (2026-05-21T09:10:09Z) - ArPoMeme: An Annotated Arabic Multimodal Dataset for Political Ideology and Polarization [1.0115311686147797]
本稿では,約7300のアラビア政治ミームの大規模データセットであるArPoMemeについて述べる。
このデータセットは、これらのミームを制作し広める公開Facebookページやグループの自己識別に分類することで、アラビアのミームエコシステムの多様性を捉えている。
得られたデータセットは、視覚的内容、テキストメッセージ、イデオロギー的指向を結びつけ、政治的対立、動員、ユーモアのきめ細かい分析を可能にする。
論文 参考訳(メタデータ) (2026-05-20T09:53:01Z) - JobArabi: An Arabic Corpus and Analysis of Job Announcements from Social Media [1.6784509158098027]
JobArabi(ジョブアラビ)は、2024年1月から2025年10月までにソーシャルメディアから収集された大規模なアラビア語の求人情報コーパスである。
データセットには、Xからの20,528のパブリックポストが含まれており、2年以上にわたる雇用に関する議論を捉えている。
論文 参考訳(メタデータ) (2026-05-20T09:45:33Z) - DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - A Survey on Stereotype Detection in Natural Language Processing [46.27245894098319]
ステレオタイプは社会的知覚に影響を与え、差別や暴力へとエスカレートする。
この研究は、心理学、社会学、哲学からの定義を分析し、既存の研究を調査する。
発見は、偏見のエスカレーションやヘイトスピーチの台頭を防ぐための早期監視ツールとしてステレオタイプ検出を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:03:56Z) - Navigating Dialectal Bias and Ethical Complexities in Levantine Arabic Hate Speech Detection [4.207344194403586]
ソーシャルメディアプラットフォームはグローバルなコミュニケーションの中心となっているが、ヘイトスピーチの普及も促進している。
レバンタ語のような表現の浅い方言では、ヘイトスピーチを検出することは独特の文化的、倫理的、言語的な課題をもたらす。
本稿では,レバンティーヌ・アラビアの複雑な社会政治・言語的景観を考察し,ヘイトスピーチ検出に使用される現在のデータセットの限界について批判的に考察する。
論文 参考訳(メタデータ) (2024-12-14T23:02:46Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Multilingual Twitter Corpus and Baselines for Evaluating Demographic
Bias in Hate Speech Recognition [46.57105755981092]
ヘイトスピーチ検出のための多言語Twitterコーパスを公開している。
コーパスは英語、イタリア語、ポーランド語、ポルトガル語、スペイン語の5つの言語をカバーしている。
我々は、クラウドソーシングプラットフォームを用いて、推定された人口統計ラベルを評価した。
論文 参考訳(メタデータ) (2020-02-24T16:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。