論文の概要: NNOSE: Nearest Neighbor Occupational Skill Extraction
- arxiv url: http://arxiv.org/abs/2401.17092v1
- Date: Tue, 30 Jan 2024 15:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:30:45.303787
- Title: NNOSE: Nearest Neighbor Occupational Skill Extraction
- Title(参考訳): NNOSE:最寄りの職業スキル抽出
- Authors: Mike Zhang and Rob van der Goot and Min-Yen Kan and Barbara Plank
- Abstract要約: 作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
- 参考スコア(独自算出の注目度): 55.22292957778972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The labor market is changing rapidly, prompting increased interest in the
automatic extraction of occupational skills from text. With the advent of
English benchmark job description datasets, there is a need for systems that
handle their diversity well. We tackle the complexity in occupational skill
datasets tasks -- combining and leveraging multiple datasets for skill
extraction, to identify rarely observed skills within a dataset, and overcoming
the scarcity of skills across datasets. In particular, we investigate the
retrieval-augmentation of language models, employing an external datastore for
retrieving similar skills in a dataset-unifying manner. Our proposed method,
\textbf{N}earest \textbf{N}eighbor \textbf{O}ccupational \textbf{S}kill
\textbf{E}xtraction (NNOSE) effectively leverages multiple datasets by
retrieving neighboring skills from other datasets in the datastore. This
improves skill extraction \emph{without} additional fine-tuning. Crucially, we
observe a performance gain in predicting infrequent patterns, with substantial
gains of up to 30\% span-F1 in cross-dataset settings.
- Abstract(参考訳): 労働市場は急速に変化しており、テキストから職業スキルの自動抽出への関心が高まっている。
英語のベンチマークジョブ記述データセットの出現に伴い、多様性をうまく扱えるシステムが必要である。
作業用スキルデータセットタスクの複雑さ - 複数のデータセットを組み合わせてスキル抽出し、データセット内で稀に観察されるスキルを特定し、データセット間のスキル不足を克服する。
特に,類似したスキルをデータセット統一的に検索するために,外部データストアを用いた言語モデルの検索・拡張について検討する。
提案手法である \textbf{n}earest \textbf{n}eighbor \textbf{o}ccupational \textbf{s}kill \textbf{e}xtraction (nnose)は,データストア内の他のデータセットから隣り合うスキルを検索することによって,複数のデータセットを効果的に活用する。
これにより、スキル抽出 \emph{without} の微調整も改善される。
重要となるのは,不適切なパターンの予測におけるパフォーマンス向上であり,データ横断設定ではスパン-f1が最大30\%向上する点である。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Automated Question Generation on Tabular Data for Conversational Data Exploration [1.2574534342156884]
本稿では,会話環境におけるデータセットの関連するスライスに基づいて,自然言語で興味深い質問を推薦するシステムを提案する。
我々は、訓練済みの言語モデル(T5)の微調整のバリエーションを使って、特定の方法で自然言語の質問を生成する。
論文 参考訳(メタデータ) (2024-07-10T08:07:05Z) - Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。
問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。
私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-29T14:52:38Z) - JOBSKAPE: A Framework for Generating Synthetic Job Postings to Enhance
Skill Matching [18.94748873243611]
JobSkapeは、スキル・ツー・タコノミーマッチングのための合成データを生成するフレームワークである。
このフレームワーク内では、ジョブ投稿の包括的な合成データセットであるSkillSkapeを作成します。
本稿では,大規模言語モデルを用いたスキル抽出とマッチングタスクのための多段階パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-05T17:57:26Z) - Extreme Multi-Label Skill Extraction Training using Large Language
Models [19.095612333241288]
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
以上の結果より,textitR-Precision@5では15~25ポイントの連続的な増加が見られた。
論文 参考訳(メタデータ) (2023-07-20T11:29:15Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in
Few-Shot NLP [68.43279384561352]
既存のデータ拡張アルゴリズムはタスク非依存のルールや微調整の汎用事前訓練言語モデルを利用する。
これらの手法は、簡単なタスク固有の知識を持ち、単純なタスクにおいて弱いベースラインのための低品質な合成データを得るに限られる。
我々は,様々なNLPタスクを予め学習したエンコーダ/デコーダLMの知識混合データ拡張モデル(KnowDA)を提案する。
論文 参考訳(メタデータ) (2022-06-21T11:34:02Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。