論文の概要: Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction
- arxiv url: http://arxiv.org/abs/2209.05987v1
- Date: Tue, 13 Sep 2022 13:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:46:58.975795
- Title: Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction
- Title(参考訳): 遠隔教師付きスキル抽出のための負サンプリング戦略の設計
- Authors: Jens-Joris Decorte, Jeroen Van Hautte, Johannes Deleu, Chris Develder
and Thomas Demeester
- Abstract要約: 本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
- 参考スコア(独自算出の注目度): 19.43668931500507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skills play a central role in the job market and many human resources (HR)
processes. In the wake of other digital experiences, today's online job market
has candidates expecting to see the right opportunities based on their skill
set. Similarly, enterprises increasingly need to use data to guarantee that the
skills within their workforce remain future-proof. However, structured
information about skills is often missing, and processes building on self- or
manager-assessment have shown to struggle with issues around adoption,
completeness, and freshness of the resulting data. Extracting skills is a
highly challenging task, given the many thousands of possible skill labels
mentioned either explicitly or merely described implicitly and the lack of
finely annotated training corpora. Previous work on skill extraction overly
simplifies the task to an explicit entity detection task or builds on manually
annotated training data that would be infeasible if applied to a complete
vocabulary of skills. We propose an end-to-end system for skill extraction,
based on distant supervision through literal matching. We propose and evaluate
several negative sampling strategies, tuned on a small validation dataset, to
improve the generalization of skill extraction towards implicitly mentioned
skills, despite the lack of such implicit skills in the distantly supervised
data. We observe that using the ESCO taxonomy to select negative examples from
related skills yields the biggest improvements, and combining three different
strategies in one model further increases the performance, up to 8 percentage
points in RP@5. We introduce a manually annotated evaluation benchmark for
skill extraction based on the ESCO taxonomy, on which we validate our models.
We release the benchmark dataset for research purposes to stimulate further
research on the task.
- Abstract(参考訳): スキルは雇用市場や多くの人的資源(HR)プロセスにおいて中心的な役割を果たす。
他のデジタル体験に続いて、今日のオンライン求人市場には、スキルセットに基づいて適切な機会を期待する候補者がいる。
同様に、企業は労働力のスキルが将来安全であることを保証するためにデータを使う必要がある。
しかしながら、スキルに関する構造化された情報は欠落することが多く、自己評価やマネージャ評価に基づくプロセスの構築は、結果データの採用、完全性、鮮度に関する問題に苦労していることを示している。
明示的あるいは単に暗黙的に記述された何千ものスキルラベルと、微妙な注釈付きトレーニングコーパスの欠如を考えると、スキルの抽出は非常に難しい作業である。
スキル抽出に関するこれまでの作業は、タスクを明示的なエンティティ検出タスクに過剰に単純化するか、あるいは完全なスキルの語彙に適用すれば、手動で注釈付けされたトレーニングデータの上に構築する。
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
遠隔教師データにおける暗黙的なスキルの欠如にもかかわらず、暗黙的に言及されるスキルに対するスキル抽出の一般化を改善するために、小さな検証データセットに基づいて調整されたいくつかの否定的なサンプリング戦略を提案し、評価する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られ、一つのモデルに3つの異なる戦略を組み合わせることで、RP@5の最大8ポイントのパフォーマンスが向上する。
我々は,esco分類に基づくスキル抽出のための手作業アノテート評価ベンチマークを導入し,モデルを検証する。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。
問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。
私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-29T14:52:38Z) - Rethinking Skill Extraction in the Job Market Domain using Large
Language Models [20.256353240384133]
スキル抽出は、仕事の投稿や履歴書などの文書で言及されているスキルと資格を識別する。
手動でアノテートしたデータへの依存は、そのようなアプローチの一般化可能性を制限する。
本稿では,これらの課題を克服するための文脈内学習の活用について検討する。
論文 参考訳(メタデータ) (2024-02-06T09:23:26Z) - NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文 参考訳(メタデータ) (2024-01-30T15:18:29Z) - Extreme Multi-Label Skill Extraction Training using Large Language
Models [19.095612333241288]
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
以上の結果より,textitR-Precision@5では15~25ポイントの連続的な増加が見られた。
論文 参考訳(メタデータ) (2023-07-20T11:29:15Z) - Large Language Models as Batteries-Included Zero-Shot ESCO Skills
Matchers [0.0]
大規模言語モデル(LLM)に基づくジョブ記述からスキル抽出のためのエンドツーエンドゼロショットシステムを提案する。
ESCOのスキル全体に関する総合的なトレーニングデータを生成し,求職者からのスキル言及を抽出するために分類器を訓練する。
また、類似性検索を用いてスキル候補を生成し、第2のLCMを用いて再ランク付けする。
論文 参考訳(メタデータ) (2023-07-07T12:04:12Z) - "FIJO": a French Insurance Soft Skill Detection Dataset [0.0]
本稿では、多くのソフトスキルアノテーションを含む保険業務のオファーを含む新しい公開データセットFIJOを提案する。
名前付きエンティティ認識を用いたスキル検出アルゴリズムの結果を提示し、トランスフォーマーベースのモデルがこのデータセット上で優れたトークンワイズ性能を示すことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:54:22Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。