論文の概要: Extracting O*NET Features from the NLx Corpus to Build Public Use Aggregate Labor Market Data
- arxiv url: http://arxiv.org/abs/2510.01470v1
- Date: Wed, 01 Oct 2025 21:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.877684
- Title: Extracting O*NET Features from the NLx Corpus to Build Public Use Aggregate Labor Market Data
- Title(参考訳): NLx CorpusからO*NET機能を抽出し、労働市場データを公開活用
- Authors: Stephen Meisenbacher, Svetlozar Nestorov, Peter Norlander,
- Abstract要約: 我々は、ジョブ投稿から構造化情報を抽出する自然言語処理ツールを構築するためのフレームワークとして、O*NETを採用している。
我々は、National Labor Exchange (NLx) Research Hubが提供している1億1500万以上のオンライン求人広告から、100億以上のデータポイントを抽出します。
- 参考スコア(独自算出の注目度): 2.1707529464094555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data from online job postings are difficult to access and are not built in a standard or transparent manner. Data included in the standard taxonomy and occupational information database (O*NET) are updated infrequently and based on small survey samples. We adopt O*NET as a framework for building natural language processing tools that extract structured information from job postings. We publish the Job Ad Analysis Toolkit (JAAT), a collection of open-source tools built for this purpose, and demonstrate its reliability and accuracy in out-of-sample and LLM-as-a-Judge testing. We extract more than 10 billion data points from more than 155 million online job ads provided by the National Labor Exchange (NLx) Research Hub, including O*NET tasks, occupation codes, tools, and technologies, as well as wages, skills, industry, and more features. We describe the construction of a dataset of occupation, state, and industry level features aggregated by monthly active jobs from 2015 - 2025. We illustrate the potential for research and future uses in education and workforce development.
- Abstract(参考訳): オンライン求人情報へのアクセスは困難であり、標準的あるいは透明な方法で構築されていない。
標準分類・職業情報データベース(O*NET)に含まれるデータは、しばしば更新され、小さな調査サンプルに基づいて更新される。
我々は、ジョブ投稿から構造化情報を抽出する自然言語処理ツールを構築するためのフレームワークとして、O*NETを採用している。
この目的のために構築されたオープンソースツールの集合であるJob Ad Analysis Toolkit (JAAT) を公開し、その信頼性と信頼性をサンプル外およびLCM-as-a-Judgeテストで実証する。
我々は、O*NETタスク、職業コード、ツール、技術、賃金、スキル、業界、その他の機能を含む、National Labor Exchange (NLx) Research Hubが提供する15500万以上のオンライン求人広告から、100億以上のデータポイントを抽出します。
本稿では、2015年から2025年までの月間アクティブジョブで集計された、職業、国家、産業レベルの特徴のデータセットの構築について述べる。
教育と労働開発における研究と将来的な利用の可能性について説明する。
関連論文リスト
- Enhancing Talent Employment Insights Through Feature Extraction with LLM Finetuning [0.0]
遠隔作業の可利用性、報酬構造、教育要件、作業経験の好みなどの変数を識別する堅牢なパイプラインを開発する。
本手法は,従来の解析ツールの限界を克服するために,意味的チャンキング,検索拡張生成(RAG),微調整DistilBERTモデルを組み合わせる。
細調整されたモデルの包括的評価を行い、その強度、限界、スケーリングの可能性について分析する。
論文 参考訳(メタデータ) (2025-01-13T19:49:49Z) - NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models [10.344854970262984]
包括的ネストツール学習評価のギャップを埋めるために、NesToolsを導入します。
NesToolsは、大規模なネストツールコールを構築するための、新しい自動データ生成方法を備えている。
手動によるレビューと改善により、データセットは高品質で、現実世界のシナリオと密接に一致している。
論文 参考訳(メタデータ) (2024-10-15T17:33:43Z) - Job-SDF: A Multi-Granularity Dataset for Job Skill Demand Forecasting and Benchmarking [59.87055275344965]
Job-SDFは、ジョブスキルの需要予測モデルをトレーニングし、ベンチマークするために設計されたデータセットである。
2021年から2023年にかけて、中国の大手オンライン求人プラットフォームから集められた1035万件の求人広告に基づいている。
本データセットは,職業,企業,地域レベルなど,さまざまな粒度でのスキル需要予測モデルの評価を可能にする。
論文 参考訳(メタデータ) (2024-06-17T07:22:51Z) - Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。
問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。
私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-29T14:52:38Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。