論文の概要: Efficient Text Encoders for Labor Market Analysis
- arxiv url: http://arxiv.org/abs/2505.24640v1
- Date: Fri, 30 May 2025 14:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.000639
- Title: Efficient Text Encoders for Labor Market Analysis
- Title(参考訳): 労働市場分析のための効率的なテキストエンコーダ
- Authors: Jens-Joris Decorte, Jeroen Van Hautte, Chris Develder, Thomas Demeester,
- Abstract要約: スキル分類の極端多ラベル分類タスクにトークンレベルの注意を向けた,新しいコントラスト学習手法である textbfConT-match を提案する。
textbfSkill-XLは、全文レベルのスキルアノテーションを備えた新しいベンチマークである。
私たちのモデルは効率的で正確でスケーラブルで、大規模でリアルタイムな労働市場分析に最適です。
- 参考スコア(独自算出の注目度): 11.083396379885478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labor market analysis relies on extracting insights from job advertisements, which provide valuable yet unstructured information on job titles and corresponding skill requirements. While state-of-the-art methods for skill extraction achieve strong performance, they depend on large language models (LLMs), which are computationally expensive and slow. In this paper, we propose \textbf{ConTeXT-match}, a novel contrastive learning approach with token-level attention that is well-suited for the extreme multi-label classification task of skill classification. \textbf{ConTeXT-match} significantly improves skill extraction efficiency and performance, achieving state-of-the-art results with a lightweight bi-encoder model. To support robust evaluation, we introduce \textbf{Skill-XL}, a new benchmark with exhaustive, sentence-level skill annotations that explicitly address the redundancy in the large label space. Finally, we present \textbf{JobBERT V2}, an improved job title normalization model that leverages extracted skills to produce high-quality job title representations. Experiments demonstrate that our models are efficient, accurate, and scalable, making them ideal for large-scale, real-time labor market analysis.
- Abstract(参考訳): 労働市場分析は、求人広告から洞察を抽出することに依存しており、求職者名簿とそれに対応するスキル要件に関する価値ある未構造化情報を提供する。
スキル抽出のための最先端の手法は高い性能を達成するが、計算コストが高く遅い大規模言語モデル(LLM)に依存している。
本稿では,トークンレベルの注意を持つ新しいコントラスト学習手法である「textbf{ConTeXT-match}」を提案する。
\textbf{ConTeXT-match} は、スキル抽出の効率と性能を大幅に向上させ、軽量なバイエンコーダモデルで最先端の結果を達成する。
頑健な評価を支援するために,大ラベル空間の冗長性を明確に対処する全文レベルのスキルアノテーションを備えた新しいベンチマークである \textbf{Skill-XL} を導入する。
最後に、抽出したスキルを活用して高品質なジョブタイトル表現を生成する改良されたジョブタイトル正規化モデルである「textbf{JobBERT V2}」を提案する。
実験により、我々のモデルは効率的で正確でスケーラブルであり、大規模でリアルタイムな労働市場分析に最適であることが示された。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Enhancing Talent Employment Insights Through Feature Extraction with LLM Finetuning [0.0]
遠隔作業の可利用性、報酬構造、教育要件、作業経験の好みなどの変数を識別する堅牢なパイプラインを開発する。
本手法は,従来の解析ツールの限界を克服するために,意味的チャンキング,検索拡張生成(RAG),微調整DistilBERTモデルを組み合わせる。
細調整されたモデルの包括的評価を行い、その強度、限界、スケーリングの可能性について分析する。
論文 参考訳(メタデータ) (2025-01-13T19:49:49Z) - An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation [97.3797716862478]
Word-level AutoCompletion (WLAC) は、コンピュータ支援翻訳における報奨だが挑戦的なタスクである。
既存の作業は、入力コンテキストの隠れベクターを対応するラベルにマッピングするニューラルネットワークに基づく分類モデルを通じて、このタスクに対処する。
そこで本研究では,WLACのエネルギーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:07:19Z) - Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。
問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。
私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-29T14:52:38Z) - Rethinking Skill Extraction in the Job Market Domain using Large
Language Models [20.256353240384133]
スキル抽出は、仕事の投稿や履歴書などの文書で言及されているスキルと資格を識別する。
手動でアノテートしたデータへの依存は、そのようなアプローチの一般化可能性を制限する。
本稿では,これらの課題を克服するための文脈内学習の活用について検討する。
論文 参考訳(メタデータ) (2024-02-06T09:23:26Z) - NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文 参考訳(メタデータ) (2024-01-30T15:18:29Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Extreme Multi-Label Skill Extraction Training using Large Language
Models [19.095612333241288]
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
以上の結果より,textitR-Precision@5では15~25ポイントの連続的な増加が見られた。
論文 参考訳(メタデータ) (2023-07-20T11:29:15Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。