Fugu-MT 論文翻訳(概要): SkillSpan: Hard and Soft Skill Extraction from English Job Postings

論文の概要: SkillSpan: Hard and Soft Skill Extraction from English Job Postings

arxiv url: http://arxiv.org/abs/2204.12811v1
Date: Wed, 27 Apr 2022 10:07:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-28 13:32:45.494667
Title: SkillSpan: Hard and Soft Skill Extraction from English Job Postings
Title（参考訳）: SkillSpan: 英語の求人投稿からハードとソフトのスキル抽出
Authors: Mike Zhang, Kristian N{\o}rgaard Jensen, Sif Dam Sonniks, Barbara Plank
Abstract要約: 14.5K文と12.5Kスパンからなる新しいSEデータセットであるSKILLSPANを紹介する。ドメインの専門家によるハードとソフトのスキルに注釈を付けた3つの異なるソースで作成されたガイドラインをリリースします。その結果、ドメイン適応モデルは非適応モデルよりも大幅に優れ、シングルタスクはマルチタスク学習よりも優れていた。
参考スコア（独自算出の注目度）: 16.490047604583882
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Skill Extraction (SE) is an important and widely-studied task useful to gain insights into labor market dynamics. However, there is a lacuna of datasets and annotation guidelines; available datasets are few and contain crowd-sourced labels on the span-level or labels from a predefined skill inventory. To address this gap, we introduce SKILLSPAN, a novel SE dataset consisting of 14.5K sentences and over 12.5K annotated spans. We release its respective guidelines created over three different sources annotated for hard and soft skills by domain experts. We introduce a BERT baseline (Devlin et al., 2019). To improve upon this baseline, we experiment with language models that are optimized for long spans (Joshi et al., 2020; Beltagy et al., 2020), continuous pre-training on the job posting domain (Han and Eisenstein, 2019; Gururangan et al., 2020), and multi-task learning (Caruana, 1997). Our results show that the domain-adapted models significantly outperform their non-adapted counterparts, and single-task outperforms multi-task learning.
Abstract（参考訳）: スキル抽出(SE)は、労働市場のダイナミクスに関する洞察を得るのに役立つ重要かつ広く研究されている課題である。利用可能なデータセットは少なく、事前に定義されたスキルインベントリから、スパンレベルやラベルにクラウドソースされたラベルが含まれている。このギャップを解決するために、14.5K文と12.5Kアノテーション付きスパンからなる新しいSEデータセットであるSKILLSPANを紹介する。それぞれのガイドラインを3つの異なるソースから作成し、ドメインの専門家によるハードとソフトのスキルにアノテートしています。 BERTベースラインを紹介する(Devlin et al., 2019)。このベースラインを改善するために、長期にわたって最適化された言語モデル(joshi et al., 2020; beltagy et al., 2020)、求人ドメインでの継続的な事前トレーニング(han and eisenstein, 2019; gururangan et al., 2020)、マルチタスク学習(caruana, 1997)を実験する。その結果、ドメイン適応モデルは非適応モデルよりも優れ、シングルタスクはマルチタスク学習よりも優れていた。

関連論文リスト

A Comparative Study of Task Adaptation Techniques of Large Language Models for Identifying Sustainable Development Goals [39.71115518041856]
本研究では,国連の持続可能な開発目標に焦点をあてた,単一ラベルの多クラステキスト分類タスクを対象とした,プロプライエタリでオープンソースのテキスト分類モデルについて分析する。その結果、より小さなモデルでは、プロンプトエンジニアリングによって最適化された場合、OpenAIのGPTのような大きなモデルと同等に動作できることが判明した。
論文参考訳（メタデータ） (2025-06-18T07:42:32Z)
LlamaLens: Specialized Multilingual LLM for Analyzing News and Social Media Content [9.539308087147134]
大規模言語モデル(LLM)は、様々な分野にわたる汎用タスクソルバとして顕著な成功を収めている。本研究では,LlamaLens という特殊な LLM を開発し,多言語でニュースやソーシャルメディアのコンテンツを分析することに焦点を当てた。 LlamaLensは16個のテストセットで現在の最先端(SOTA)よりも優れ、10個のテストセットで同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-10-20T06:37:37Z)
Pretraining Data and Tokenizer for Indic LLM [1.7729311045335219]
我々は,多言語Indic大言語モデル構築のためのデータ準備のための新しいアプローチを開発する。われわれの厳密なデータ取得は、Common Crawl、Indic Book、ニュース記事、Wikipediaなど、オープンソースとプロプライエタリなソースにまたがっている。 Indic言語毎に、冗長で低品質なテキストコンテンツを効果的に除去するカスタムプリプロセッシングパイプラインを設計する。
論文参考訳（メタデータ） (2024-07-17T11:06:27Z)
Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
LiPost: Improved Content Understanding With Effective Use of Multi-task Contrastive Learning [2.611731148829789]
多様なセマンティックラベリングタスクから得られたデータとマルチタスクのコントラスト学習を用いて、事前学習されたトランスフォーマーベースのLLMを微調整する。我々のモデルはゼロショット学習のベースラインを上回り、多言語サポートの改善を提供する。この作業は、LLMを特定のアプリケーションにカスタマイズし、微調整するLinkedInの垂直チームにとって、堅牢な基盤を提供する。
論文参考訳（メタデータ） (2024-05-18T17:28:29Z)
Data Engineering for Scaling Language Models to 128K Context [98.41554785106902]
本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。既存の作業の一般的な実践である書籍のような特定のドメインで、より長いデータを鼻でサンプリングすることで、パフォーマンスが最適以下であることが分かりました。我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
論文参考訳（メタデータ） (2024-02-15T18:19:16Z)
NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文参考訳（メタデータ） (2024-01-30T15:18:29Z)
Optimal Strategies to Perform Multilingual Analysis of Social Content for a Novel Dataset in the Tourism Domain [5.848712585343905]
大規模な多言語言語モデル上で、少数ショット、パターン探索、微調整の機械学習技術を評価する。我々は,3つの共通NLPタスクにおいて,優れた性能を実現するのに必要な注釈付きサンプルの量を確認することを目的としている。この作業は、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装する。
論文参考訳（メタデータ） (2023-11-20T13:08:21Z)
Extreme Multi-Label Skill Extraction Training using Large Language Models [19.095612333241288]
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。以上の結果より,textitR-Precision@5では15～25ポイントの連続的な増加が見られた。
論文参考訳（メタデータ） (2023-07-20T11:29:15Z)
Pre-training Multi-task Contrastive Learning Models for Scientific Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文参考訳（メタデータ） (2023-05-23T16:47:22Z)
Design of Negative Sampling Strategies for Distantly Supervised Skill Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。 ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文参考訳（メタデータ） (2022-09-13T13:37:06Z)
Transferring BERT-like Transformers' Knowledge for Authorship Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文参考訳（メタデータ） (2021-12-09T18:57:29Z)
Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文参考訳（メタデータ） (2020-10-07T17:47:53Z)
XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。 XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文参考訳（メタデータ） (2020-04-03T07:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。