論文の概要: Contrastive Bi-Encoder Models for Multi-Label Skill Extraction: Enhancing ESCO Ontology Matching with BERT and Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2601.09119v1
- Date: Wed, 14 Jan 2026 03:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.250268
- Title: Contrastive Bi-Encoder Models for Multi-Label Skill Extraction: Enhancing ESCO Ontology Matching with BERT and Attention Mechanisms
- Title(参考訳): マルチラベルスキル抽出のための対比バイエンコーダモデル:BERTと一致するESCOオントロジーの強化と注意機構
- Authors: Yongming Sun,
- Abstract要約: 細密労働市場分析は、構造化されていない求人広告をESCOのような標準化されたスキルにマッピングすることにますます依存している。
本稿では,手動でラベル付けされたジョブ・アド・トレーニングデータを必要としないゼロショットスキル抽出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained labor market analysis increasingly relies on mapping unstructured job advertisements to standardized skill taxonomies such as ESCO. This mapping is naturally formulated as an Extreme Multi-Label Classification (XMLC) problem, but supervised solutions are constrained by the scarcity and cost of large-scale, taxonomy-aligned annotations--especially in non-English settings where job-ad language diverges substantially from formal skill definitions. We propose a zero-shot skill extraction framework that eliminates the need for manually labeled job-ad training data. The framework uses a Large Language Model (LLM) to synthesize training instances from ESCO definitions, and introduces hierarchically constrained multi-skill generation based on ESCO Level-2 categories to improve semantic coherence in multi-label contexts. On top of the synthetic corpus, we train a contrastive bi-encoder that aligns job-ad sentences with ESCO skill descriptions in a shared embedding space; the encoder augments a BERT backbone with BiLSTM and attention pooling to better model long, information-dense requirement statements. An upstream RoBERTa-based binary filter removes non-skill sentences to improve end-to-end precision. Experiments show that (i) hierarchy-conditioned generation improves both fluency and discriminability relative to unconstrained pairing, and (ii) the resulting multi-label model transfers effectively to real-world Chinese job advertisements, achieving strong zero-shot retrieval performance (F1@5 = 0.72) and outperforming TF--IDF and standard BERT baselines. Overall, the proposed pipeline provides a scalable, data-efficient pathway for automated skill coding in labor economics and workforce analytics.
- Abstract(参考訳): きめ細かい労働市場分析は、非構造的な求人広告をESCOのような標準化された技術分類にマッピングすることにますます依存している。
このマッピングは、XMLC(Extreme Multi-Label Classification)問題として自然に定式化されているが、教師付きソリューションは、大規模で分類学的に整合したアノテーションの不足とコストによって制約されている。
本稿では,手動でラベル付けされたジョブ・アド・トレーニングデータを必要としないゼロショットスキル抽出フレームワークを提案する。
このフレームワークは、LLM(Large Language Model)を使用して、ESCO定義からトレーニングインスタンスを合成し、ESCO Level-2カテゴリに基づいた階層的に制約されたマルチスキル生成を導入し、マルチラベルコンテキストにおけるセマンティックコヒーレンスを改善する。
合成コーパスの上には,ジョブとESCOのスキル記述を共有埋め込み空間で整列する対照的なバイエンコーダを訓練し,そのエンコーダはBERTバックボーンをBiLSTMで強化し,アテンションプールを改良して,長文で情報量の多い要求文をモデル化する。
上流のRoBERTaベースのバイナリフィルタは、非熟練文を除去し、エンドツーエンドの精度を改善する。
実験では
(i)階層条件付き生成は、制約のないペアリングに対する流布度と識別性の両方を改善し、
(i) 得られたマルチラベルモデルは、実世界の中国の求人広告に効果的に移行し、強力なゼロショット検索性能(F1@5 = 0.72)を達成し、TF-IDFおよび標準BERTベースラインを上回っている。
全体として、提案されたパイプラインは、労働経済学と労働分析における自動スキルコーディングのためのスケーラブルでデータ効率のよいパスを提供する。
関連論文リスト
- Learnable Item Tokenization for Generative Recommendation [113.80559032128065]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Hierarchical Classification of Transversal Skills in Job Ads Based on
Sentence Embeddings [0.0]
本稿では,求人広告要件とスキルセットの相関関係をディープラーニングモデルを用いて同定することを目的とする。
このアプローチには、ESCO(European Skills, Competences, Occupations)分類を使用したデータ収集、事前処理、ラベル付けが含まれる。
論文 参考訳(メタデータ) (2024-01-10T11:07:32Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。