論文の概要: SkillSpan: Hard and Soft Skill Extraction from English Job Postings
- arxiv url: http://arxiv.org/abs/2204.12811v1
- Date: Wed, 27 Apr 2022 10:07:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 13:32:45.494667
- Title: SkillSpan: Hard and Soft Skill Extraction from English Job Postings
- Title(参考訳): SkillSpan: 英語の求人投稿からハードとソフトのスキル抽出
- Authors: Mike Zhang, Kristian N{\o}rgaard Jensen, Sif Dam Sonniks, Barbara
Plank
- Abstract要約: 14.5K文と12.5Kスパンからなる新しいSEデータセットであるSKILLSPANを紹介する。
ドメインの専門家によるハードとソフトのスキルに注釈を付けた3つの異なるソースで作成されたガイドラインをリリースします。
その結果、ドメイン適応モデルは非適応モデルよりも大幅に優れ、シングルタスクはマルチタスク学習よりも優れていた。
- 参考スコア(独自算出の注目度): 16.490047604583882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skill Extraction (SE) is an important and widely-studied task useful to gain
insights into labor market dynamics. However, there is a lacuna of datasets and
annotation guidelines; available datasets are few and contain crowd-sourced
labels on the span-level or labels from a predefined skill inventory. To
address this gap, we introduce SKILLSPAN, a novel SE dataset consisting of
14.5K sentences and over 12.5K annotated spans. We release its respective
guidelines created over three different sources annotated for hard and soft
skills by domain experts. We introduce a BERT baseline (Devlin et al., 2019).
To improve upon this baseline, we experiment with language models that are
optimized for long spans (Joshi et al., 2020; Beltagy et al., 2020), continuous
pre-training on the job posting domain (Han and Eisenstein, 2019; Gururangan et
al., 2020), and multi-task learning (Caruana, 1997). Our results show that the
domain-adapted models significantly outperform their non-adapted counterparts,
and single-task outperforms multi-task learning.
- Abstract(参考訳): スキル抽出(SE)は、労働市場のダイナミクスに関する洞察を得るのに役立つ重要かつ広く研究されている課題である。
利用可能なデータセットは少なく、事前に定義されたスキルインベントリから、スパンレベルやラベルにクラウドソースされたラベルが含まれている。
このギャップを解決するために、14.5K文と12.5Kアノテーション付きスパンからなる新しいSEデータセットであるSKILLSPANを紹介する。
それぞれのガイドラインを3つの異なるソースから作成し、ドメインの専門家によるハードとソフトのスキルにアノテートしています。
BERTベースラインを紹介する(Devlin et al., 2019)。
このベースラインを改善するために、長期にわたって最適化された言語モデル(joshi et al., 2020; beltagy et al., 2020)、求人ドメインでの継続的な事前トレーニング(han and eisenstein, 2019; gururangan et al., 2020)、マルチタスク学習(caruana, 1997)を実験する。
その結果、ドメイン適応モデルは非適応モデルよりも優れ、シングルタスクはマルチタスク学習よりも優れていた。
関連論文リスト
- Data Engineering for Scaling Language Models to 128K Context [98.41554785106902]
本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。
既存の作業の一般的な実践である書籍のような特定のドメインで、より長いデータを鼻でサンプリングすることで、パフォーマンスが最適以下であることが分かりました。
我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
論文 参考訳(メタデータ) (2024-02-15T18:19:16Z) - NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文 参考訳(メタデータ) (2024-01-30T15:18:29Z) - Optimal Strategies to Perform Multilingual Analysis of Social Content
for a Novel Dataset in the Tourism Domain [5.848712585343905]
大規模な多言語言語モデル上で、少数ショット、パターン探索、微調整の機械学習技術を評価する。
我々は,3つの共通NLPタスクにおいて,優れた性能を実現するのに必要な注釈付きサンプルの量を確認することを目的としている。
この作業は、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装する。
論文 参考訳(メタデータ) (2023-11-20T13:08:21Z) - Large Language Models for Propaganda Span Annotation [11.64165958410489]
GPT-4のような大規模言語モデル(LLM)が効果的にタスクを実行できるかどうかを検討する。
さまざまな専門知識を持つアノテータからのアノテーションで構成された大規模な社内データセットを使用します。
GPT-4を含む複数のアノテータから収集したスパンレベルラベルをコミュニティに提供する予定です。
論文 参考訳(メタデータ) (2023-11-16T11:37:54Z) - Extreme Multi-Label Skill Extraction Training using Large Language
Models [19.095612333241288]
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
以上の結果より,textitR-Precision@5では15~25ポイントの連続的な増加が見られた。
論文 参考訳(メタデータ) (2023-07-20T11:29:15Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - Transferring BERT-like Transformers' Knowledge for Authorship
Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:57:29Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。