論文の概要: JobArabi: An Arabic Corpus and Analysis of Job Announcements from Social Media
- arxiv url: http://arxiv.org/abs/2605.20960v1
- Date: Wed, 20 May 2026 09:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.606723
- Title: JobArabi: An Arabic Corpus and Analysis of Job Announcements from Social Media
- Title(参考訳): JobArabi: アラビア語コーパスとソーシャルメディアからの求人発表の分析
- Authors: Wajdi Zaghouani, Shimaa Amer Ibrahim, Mabrouka Bessghaier, Houda Bouamor,
- Abstract要約: JobArabi(ジョブアラビ)は、2024年1月から2025年10月までにソーシャルメディアから収集された大規模なアラビア語の求人情報コーパスである。
データセットには、Xからの20,528のパブリックポストが含まれており、2年以上にわたる雇用に関する議論を捉えている。
- 参考スコア(独自算出の注目度): 1.6784509158098027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces JobArabi, a large-scale corpus of Arabic job announcements collected from social media between January 2024 and October 2025. The dataset contains 20,528 public posts from X and captures more than two years of employment-related discourse across Arabic-speaking online communities. The corpus was compiled using a linguistically informed query framework covering 21 Arabic keyword families that reflect gendered, plural, formal, and dialectal expressions of recruitment language. The resulting dataset includes posts from institutional, commercial, and individual accounts and provides metadata such as timestamps, engagement indicators, and geolocation when available, enabling temporal and regional analysis of employment discourse. Quantitative analysis reveals several sociolinguistic patterns in online recruitment, including the persistence of gendered hiring language, regional variation in occupational demand, and the emotional framing of recruitment messages. These findings highlight the potential of Arabic social media as a resource for studying labor market communication and linguistic change. The JobArabi corpus, together with documentation and collection scripts, will be released to support research in Arabic NLP, computational social science, and digital labor studies.
- Abstract(参考訳): 本稿は,2024年1月から2025年10月までにソーシャルメディアから収集された大規模なアラビア語ジョブ発表コーパスであるJobArabiを紹介する。
このデータセットには、Xから20,528のパブリックポストが含まれており、アラビア語圏のオンラインコミュニティで2年以上にわたる雇用に関する議論を捉えている。
コーパスは、採用言語のジェンダー、複数、フォーマル、弁証表現を反映した21のアラビア語キーワードファミリーをカバーする言語情報クエリーフレームワークを用いてコンパイルされた。
得られたデータセットには、機関、商業、個人アカウントからの投稿が含まれ、利用可能なタイムスタンプ、エンゲージメントインジケータ、位置情報などのメタデータを提供し、雇用談話の時間的および地域的分析を可能にする。
定量的分析では、ジェンダー付き採用言語の持続性、職業需要の地域的変化、採用メッセージの感情的フレーミングなど、オンライン採用における社会言語学的パターンが明らかにされている。
これらの知見は、労働市場のコミュニケーションと言語変化を研究するための資源として、アラビア語のソーシャルメディアの可能性を浮き彫りにしている。
JobArabi corpusはドキュメントとコレクションのスクリプトとともに、アラビアのNLP、計算社会科学、デジタル労働研究の研究を支援するためにリリースされる。
関連論文リスト
- ADAB: Arabic Dataset for Automated Politeness Benchmarking -- A Large-Scale Resource for Computational Sociopragmatics [0.6323908398583084]
4つのオンラインプラットフォームから収集された新たな注釈付きアラビア語データセットであるADAB(アラビア語ポリテネスデータセット)を紹介する。
このデータセットはアラビア語の伝統とプラグマティック理論に基づいて注釈付けされ、3つのクラス(丁寧、不規則、中性)に分類された。
16の丁寧なカテゴリーにまたがる言語的特徴アノテーションを持つ10,000のサンプルを含み、アノテータ間の実質的な合意を達成している。
論文 参考訳(メタデータ) (2026-02-14T19:58:53Z) - DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English [53.32175252285023]
言語間のニュース比較は、情報の検証に有望なアプローチを提供する。
既存の言語間ニュース分析用のデータセットは、ジャーナリストや専門家によって手作業でキュレートされた。
我々は、多言語間ニュース類似性評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-22T14:23:50Z) - ArabJobs: A Multinational Corpus of Arabic Job Ads [2.0910011859259714]
ArabJobsは、エジプト、ヨルダン、サウジアラビア、アラブ首長国連邦から集められたアラビア語の求人広告のコーパスである。
このデータセットはアラブの労働市場における言語、地域、社会経済の変動を捉えている。
本稿では、性別の表現と職業構造の分析を行い、広告間の弁証的変動を強調した。
論文 参考訳(メタデータ) (2025-09-26T17:06:07Z) - A Survey of Large Language Models for Arabic Language and its Dialects [0.0]
本調査では、アラビア語とその方言用に設計されたLarge Language Models(LLM)の概要について概説する。
Encoder-only、decoder-only、encoder-decoderモデルを含む主要なアーキテクチャと、事前トレーニングに使用されるデータセットをカバーしている。
この研究では、下流タスクのアーキテクチャとパフォーマンスを分析し、モノリンガル、バイリンガル、マルチリンガルのLLMについても検討している。
論文 参考訳(メタデータ) (2024-10-26T17:48:20Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。