論文の概要: Extreme Multi-Label Skill Extraction Training using Large Language
Models
- arxiv url: http://arxiv.org/abs/2307.10778v1
- Date: Thu, 20 Jul 2023 11:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:29:10.089951
- Title: Extreme Multi-Label Skill Extraction Training using Large Language
Models
- Title(参考訳): 大規模言語モデルを用いた極多ラベルスキル抽出訓練
- Authors: Jens-Joris Decorte, Severine Verlinden, Jeroen Van Hautte, Johannes
Deleu, Chris Develder and Thomas Demeester
- Abstract要約: 本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
以上の結果より,textitR-Precision@5では15~25ポイントの連続的な増加が見られた。
- 参考スコア(独自算出の注目度): 19.095612333241288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online job ads serve as a valuable source of information for skill
requirements, playing a crucial role in labor market analysis and e-recruitment
processes. Since such ads are typically formatted in free text, natural
language processing (NLP) technologies are required to automatically process
them. We specifically focus on the task of detecting skills (mentioned
literally, or implicitly described) and linking them to a large skill ontology,
making it a challenging case of extreme multi-label classification (XMLC).
Given that there is no sizable labeled (training) dataset are available for
this specific XMLC task, we propose techniques to leverage general Large
Language Models (LLMs). We describe a cost-effective approach to generate an
accurate, fully synthetic labeled dataset for skill extraction, and present a
contrastive learning strategy that proves effective in the task. Our results
across three skill extraction benchmarks show a consistent increase of between
15 to 25 percentage points in \textit{R-Precision@5} compared to previously
published results that relied solely on distant supervision through literal
matches.
- Abstract(参考訳): オンライン求人広告は、スキル要件に関する情報の貴重な源であり、労働市場分析やe-recruitmentプロセスにおいて重要な役割を果たす。
このような広告は通常、フリーテキストでフォーマットされるので、自然言語処理(nlp)技術は自動的に処理する必要がある。
具体的には、スキル(文字通り、または暗黙的に記述された)を検出して、それらを大きなスキルオントロジーにリンクするタスクに焦点を当て、極端なマルチラベル分類(XMLC)の難しいケースとなる。
この特定のXMLCタスクにラベル付き(トレーニング)データセットが存在しないことを考慮し、汎用言語モデル(LLM)を活用する手法を提案する。
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
3つのスキル抽出ベンチマークで比較した結果,リテラルマッチングによる遠隔監視のみに依存する結果と比較して,textit{r-precision@5}では15~25パーセンテージの一致がみられた。
関連論文リスト
- Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。
問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。
私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-29T14:52:38Z) - Rethinking Skill Extraction in the Job Market Domain using Large
Language Models [20.256353240384133]
スキル抽出は、仕事の投稿や履歴書などの文書で言及されているスキルと資格を識別する。
手動でアノテートしたデータへの依存は、そのようなアプローチの一般化可能性を制限する。
本稿では,これらの課題を克服するための文脈内学習の活用について検討する。
論文 参考訳(メタデータ) (2024-02-06T09:23:26Z) - NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文 参考訳(メタデータ) (2024-01-30T15:18:29Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - "FIJO": a French Insurance Soft Skill Detection Dataset [0.0]
本稿では、多くのソフトスキルアノテーションを含む保険業務のオファーを含む新しい公開データセットFIJOを提案する。
名前付きエンティティ認識を用いたスキル検出アルゴリズムの結果を提示し、トランスフォーマーベースのモデルがこのデータセット上で優れたトークンワイズ性能を示すことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:54:22Z) - Zero-Shot Information Extraction as a Unified Text-to-Triple Translation [56.01830747416606]
我々は、テキストから3つの翻訳フレームワークに一連の情報抽出タスクを投入した。
タスク固有の入力テキストと出力トリプルの変換としてタスクを形式化する。
本稿では,オープン情報抽出におけるゼロショット性能について検討する。
論文 参考訳(メタデータ) (2021-09-23T06:54:19Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。