論文の概要: ArabJobs: A Multinational Corpus of Arabic Job Ads
- arxiv url: http://arxiv.org/abs/2509.22589v1
- Date: Fri, 26 Sep 2025 17:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.605859
- Title: ArabJobs: A Multinational Corpus of Arabic Job Ads
- Title(参考訳): アラブ人求人:アラブ人求人広告の多国籍企業
- Authors: Mo El-Haj,
- Abstract要約: ArabJobsは、エジプト、ヨルダン、サウジアラビア、アラブ首長国連邦から集められたアラビア語の求人広告のコーパスである。
このデータセットはアラブの労働市場における言語、地域、社会経済の変動を捉えている。
本稿では、性別の表現と職業構造の分析を行い、広告間の弁証的変動を強調した。
- 参考スコア(独自算出の注目度): 2.0910011859259714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ArabJobs is a publicly available corpus of Arabic job advertisements collected from Egypt, Jordan, Saudi Arabia, and the United Arab Emirates. Comprising over 8,500 postings and more than 550,000 words, the dataset captures linguistic, regional, and socio-economic variation in the Arab labour market. We present analyses of gender representation and occupational structure, and highlight dialectal variation across ads, which offers opportunities for future research. We also demonstrate applications such as salary estimation and job category normalisation using large language models, alongside benchmark tasks for gender bias detection and profession classification. The findings show the utility of ArabJobs for fairness-aware Arabic NLP and labour market research. The dataset is publicly available on GitHub: https://github.com/drelhaj/ArabJobs.
- Abstract(参考訳): ArabJobsは、エジプト、ヨルダン、サウジアラビア、アラブ首長国連邦から収集されたアラビア語の求人広告のコーパスである。
8500件以上の投稿と550,000語以上からなるこのデータセットは、アラブの労働市場における言語、地域、社会経済の変化を捉えている。
本稿では、ジェンダー表現と職業構造の分析を行い、将来の研究の機会を提供する広告間の弁証的変動を強調する。
また、大きな言語モデルを用いた給与推定や職種正規化などの応用を、性別バイアス検出や職業分類のためのベンチマークタスクと併用して示す。
この結果は、公正に配慮したアラビア語のNLPと労働市場研究にアラブジョブが有効であることを示している。
データセットはGitHubで公開されている。
関連論文リスト
- ADAB: Arabic Dataset for Automated Politeness Benchmarking -- A Large-Scale Resource for Computational Sociopragmatics [0.6323908398583084]
4つのオンラインプラットフォームから収集された新たな注釈付きアラビア語データセットであるADAB(アラビア語ポリテネスデータセット)を紹介する。
このデータセットはアラビア語の伝統とプラグマティック理論に基づいて注釈付けされ、3つのクラス(丁寧、不規則、中性)に分類された。
16の丁寧なカテゴリーにまたがる言語的特徴アノテーションを持つ10,000のサンプルを含み、アノテータ間の実質的な合意を達成している。
論文 参考訳(メタデータ) (2026-02-14T19:58:53Z) - Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale [51.41777906371754]
私たちはHalaを紹介します。これはアラビア語中心の命令と翻訳モデルのファミリーで、私たちのトランスレーショナル・トゥン・パイプラインで構築されています。
軽量言語モデル LFM2-1.2B は、このデータに基づいて微調整され、高品質の英語の命令セットをアラビア語に翻訳するために使用される。
我々は、Halaモデルを350M、700M、1.2B、9Bパラメータでトレーニングし、アラビア語の特殊化とベースモデルの強度のバランスをとるためにスラープマージを適用します。
論文 参考訳(メタデータ) (2025-09-17T14:19:28Z) - Arabic Dialect Classification using RNNs, Transformers, and Large Language Models: A Comparative Analysis [0.0]
アラビア語は世界でも最も人気のある言語の一つであり、22か国で話される方言が多種多様である。
本研究では、アラビア語のツイートのQADIデータセットの18のアラビア方言を分類する問題に対処する。
このうち、MARBERTv2は65%の精度、64%のF1スコアで最高の成績を収めた。
論文 参考訳(メタデータ) (2025-06-24T16:06:58Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文 参考訳(メタデータ) (2022-12-21T04:35:43Z) - An open access NLP dataset for Arabic dialects : Data collection,
labeling, and model construction [0.8312466807725921]
いくつかのアラビア方言でソーシャルデータの内容のオープンデータセットを提示する。
このデータはTwitterのソーシャルネットワークから収集され、5つの国語で+50K twitsで構成されています。
このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。
論文 参考訳(メタデータ) (2021-02-07T01:39:52Z) - AraWEAT: Multidimensional Analysis of Biases in Arabic Word Embeddings [20.92135024440549]
最近導入されたバイアステストの適用により,アラビア語単語の埋め込みにおけるバイアスの広範な分析を行う。
埋め込みモデル(Skip-Gram,CBOW,FastText)やベクトルサイズなど,複数の次元にまたがるバイアスの存在を測定する。
我々の分析は、アラビア語のニュースコーパスで訓練された埋め込みにおける暗黙の性別バイアスが時間とともに着実に増加するという、いくつかの興味深い発見をもたらす。
論文 参考訳(メタデータ) (2020-11-03T09:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。