論文の概要: Chinese-SkillSpan: A Span-Level Dataset for ESCO-Aligned Competency Extraction from Chinese Job Ads
- arxiv url: http://arxiv.org/abs/2604.23009v1
- Date: Fri, 24 Apr 2026 20:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.097562
- Title: Chinese-SkillSpan: A Span-Level Dataset for ESCO-Aligned Competency Extraction from Chinese Job Ads
- Title(参考訳): Chinese-SkillSpan:中国の求人広告からESCO対応のコンピテンシー抽出のためのスパンレベルデータセット
- Authors: Guojing Li, Zichuan Fu, Junyi Li, Wenxia Zhou, Xinyang Wu, Jinning Yang, Jingtong Gao, Feng Huang, Xiangyu Zhao,
- Abstract要約: ジョブスキル 名前付きエンティティ認識(JobSkillNER)は、大規模なジョブ投稿データからキースキル情報を自動的に抽出することを目的としている。
この研究は、採用テキストのための最初の中国のJobSkillNERデータセットを提示する。
ESCOの職業スキル標準に準拠した中国初のJobSkillNERデータセットであるChina-SkillSpanをリリースする。
- 参考スコア(独自算出の注目度): 48.9502429544132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Job Skill Named Entity Recognition (JobSkillNER) aims to automatically extract key skill information from large-scale job posting data, which is important for improving talent-market matching efficiency and supporting personalized employment services. To the best of our knowledge, this work presents the first Chinese JobSkillNER dataset for recruitment texts. We propose annotation guidelines tailored to Chinese job postings and an LLM-empowered Macro-Micro collaborative annotation pipeline. The pipeline leverages the contextual understanding ability of large language models (LLMs) for initial annotation and then refines the results through expert sentence-level adjudication. Using this pipeline, we annotate more than 20,000 instances collected from four major recruitment platforms over the period 2014-2025. Based on these efforts, we release Chinese-SkillSpan, the first Chinese JobSkillNER dataset aligned with the ESCO occupational skill standard across four dimensions: knowledge, skill, transversal competence, and language competence (LSKT). Experimental results show that the dataset supports effective model training and evaluation, indicating that Chinese-SkillSpan helps fill a major gap in Chinese JobSkillNER resources and provides a useful benchmark for intelligent recruitment research. Code and data are available at https://sites.google.com/view/cn-skillspan-resources .
- Abstract(参考訳): ジョブスキル名付けられたエンティティ認識(JobSkillNER)は、人材市場のマッチング効率の向上とパーソナライズされた雇用サービスのサポートに重要な大規模求人データから、キースキル情報を自動的に抽出することを目的としている。
我々の知る限り、この研究は採用テキストのための最初の中国のJobSkillNERデータセットを提示する。
我々は,中国の求人情報に合わせたアノテーションガイドラインと,LLMを利用したマクロマイクロ協調アノテーションパイプラインを提案する。
パイプラインは、初期アノテーションのために大きな言語モデル(LLM)の文脈的理解能力を活用し、専門家の文レベルの偏見を通じて結果を洗練する。
このパイプラインを使用して、2014年から2025年の間に4つの主要な採用プラットフォームから収集された2万件以上のインスタンスに注釈を付けました。
これらの取り組みに基づき,中国初のJobSkillNERデータセットであるChina-SkillSpanをリリースした。
実験の結果、このデータセットは効果的なモデルトレーニングと評価をサポートし、中国のJobSkillNERリソースの大きなギャップを埋め、インテリジェントな採用研究に有用なベンチマークを提供することを示す。
コードとデータはhttps://sites.google.com/view/cn-skillspan-resourcesで公開されている。
関連論文リスト
- Leveraging LLMs For Turkish Skill Extraction [0.0]
本稿では,Large Language Models(LLMs)を用いたトルコ初のスキル抽出データセットと自動スキル抽出の性能評価について紹介する。
LLMの使用は、エンドツーエンドパイプラインで使用する場合、教師付きシーケンスラベリングよりも優れており、抽出されたスパンとESCO分類の標準化されたスキルをより効果的に調整する。
論文 参考訳(メタデータ) (2026-01-30T12:06:27Z) - DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset [22.47012356405577]
我々は,Common Crawlから収集した1億枚の画像テキストペアを含むDanQingを提案する。
DanQingは厳格な選択プロセスを通じてキュレートされ、優れたデータ品質が得られる。
我々は、SigLIP2モデルの継続事前トレーニングにより、DanQingと既存のデータセットを比較した。
論文 参考訳(メタデータ) (2026-01-15T11:28:58Z) - CUTE: A Multilingual Dataset for Enhancing Cross-Lingual Knowledge Transfer in Low-Resource Languages [5.442023270641246]
中国語,ウイグル語,チベット語,英語のデータセットを構築し,オープンソース化する。
このデータセットは、ウイグル語とチベット語のための、これまでで最大のオープンソースコーパスである。
論文 参考訳(メタデータ) (2025-09-21T04:30:49Z) - Extracting and Combining Abilities For Building Multi-lingual Ability-enhanced Large Language Models [109.60937659029076]
我々は,MAEC という名称の多言語抽出と組み合わせ手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験の結果,MAECは高度能力の抽出と組み合わせを効果的に効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Extreme Multi-Label Skill Extraction Training using Large Language
Models [19.095612333241288]
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
以上の結果より,textitR-Precision@5では15~25ポイントの連続的な増加が見られた。
論文 参考訳(メタデータ) (2023-07-20T11:29:15Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - SkillSpan: Hard and Soft Skill Extraction from English Job Postings [16.490047604583882]
14.5K文と12.5Kスパンからなる新しいSEデータセットであるSKILLSPANを紹介する。
ドメインの専門家によるハードとソフトのスキルに注釈を付けた3つの異なるソースで作成されたガイドラインをリリースします。
その結果、ドメイン適応モデルは非適応モデルよりも大幅に優れ、シングルタスクはマルチタスク学習よりも優れていた。
論文 参考訳(メタデータ) (2022-04-27T10:07:36Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。