論文の概要: Kompetencer: Fine-grained Skill Classification in Danish Job Postings
via Distant Supervision and Transfer Learning
- arxiv url: http://arxiv.org/abs/2205.01381v1
- Date: Tue, 3 May 2022 09:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:04:58.770166
- Title: Kompetencer: Fine-grained Skill Classification in Danish Job Postings
via Distant Supervision and Transfer Learning
- Title(参考訳): Kompetencer:Danish Job Postingsにおける遠隔スーパービジョンとトランスファーラーニングによるきめ細かいスキル分類
- Authors: Mike Zhang, Kristian N{\o}rgaard Jensen, Barbara Plank
- Abstract要約: この研究は、デンマークの求職データに適用された最初のスキル分類(SC)である。
粗粒度アノテーションを改善するために、The European Skills, Competences, Qualifications and Occupations (ESCO) Taxonomy APIを利用している。
その結果、RemBERTはゼロショットと少数ショットの両方で他のモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 18.53316095956863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skill Classification (SC) is the task of classifying job competences from job
postings. This work is the first in SC applied to Danish job vacancy data. We
release the first Danish job posting dataset: Kompetencer (en: competences),
annotated for nested spans of competences. To improve upon coarse-grained
annotations, we make use of The European Skills, Competences, Qualifications
and Occupations (ESCO; le Vrang et al., 2014) taxonomy API to obtain
fine-grained labels via distant supervision. We study two setups: The zero-shot
and few-shot classification setting. We fine-tune English-based models and
RemBERT (Chung et al., 2020) and compare them to in-language Danish models. Our
results show RemBERT significantly outperforms all other models in both the
zero-shot and the few-shot setting.
- Abstract(参考訳): スキル分類(Skill Classification、SC)は、求職者から求職者を分類するタスクである。
この研究はデンマークのジョブ空席データに適用された最初のscである。
私たちはデンマーク初の求職データセット、Kompetencer(en: competences)をリリースした。
粗粒度アノテーションを改善するため,欧州スキル,能力,資格,職業 (ESCO; le Vrang et al., 2014) の分類APIを用いて,遠隔監視を通じて詳細なラベルを取得する。
ゼロショットと少数ショットの分類設定の2つの設定について検討する。
英語ベースのモデルとrembert(chung et al., 2020)を微調整し、言語内デンマークモデルと比較する。
その結果、RemBERTはゼロショットと少数ショットの両方で他のモデルよりも大幅に優れていた。
関連論文リスト
- Joint Extraction and Classification of Danish Competences for Job Matching [13.364545674944825]
本研究はデンマークの求職者から有能性を共同で抽出し分類する最初のモデルを示す。
統合抽出・分類のための単一BERTアーキテクチャとして,本モデルは軽量かつ効率的に推論できる。
論文 参考訳(メタデータ) (2024-10-29T15:00:40Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Entity Linking in the Job Market Domain [40.23705539284729]
エンティティリンク (EL) はウィキペディアを中心にしているが、求人市場領域では未検討である。
本研究では,この領域でELを初めて探求し,特に職業スキルとESCO分類の関連性に着目した。
ハイパフォーマンスな2つのニューラルELモデルをチューニングし、人間の注釈付きスキルリンクベンチマークで評価する。
論文 参考訳(メタデータ) (2024-01-31T16:34:10Z) - Hierarchical Classification of Transversal Skills in Job Ads Based on
Sentence Embeddings [0.0]
本稿では,求人広告要件とスキルセットの相関関係をディープラーニングモデルを用いて同定することを目的とする。
このアプローチには、ESCO(European Skills, Competences, Occupations)分類を使用したデータ収集、事前処理、ラベル付けが含まれる。
論文 参考訳(メタデータ) (2024-01-10T11:07:32Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - conSultantBERT: Fine-tuned Siamese Sentence-BERT for Matching Jobs and
Job Seekers [2.208694022993555]
解析された履歴データのノイズ、異なるデータソースの異種性、およびクロスリンガル性および多言語性がドメイン固有の課題であることを示す。
我々は、大規模な実世界と高品質のデータセットを使用して、当社のスタッフコンサルタントによってラベル付けされた270,000回の再開空白ペアを使用して、conSultantBERT(conSultantBERT)と呼ばれるSiamese Sentence Siamese-BERT(SBERT)モデルを微調整することで、これらの課題に対処する。
我々の微調整モデルはTF-IDF重み付き特徴ベクトルとBERT埋め込みに依存する教師なしベースラインと教師なしベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-14T07:57:05Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。