論文の概要: Multilingual hierarchical classification of job advertisements for job vacancy statistics
- arxiv url: http://arxiv.org/abs/2411.03779v1
- Date: Wed, 06 Nov 2024 09:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:22:48.059543
- Title: Multilingual hierarchical classification of job advertisements for job vacancy statistics
- Title(参考訳): 就業機会統計のための求人広告の多言語階層分類
- Authors: Maciej Beręsewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater,
- Abstract要約: 本研究の目的は,オンライン求人広告における職業規範の多言語分類と条件付き確率を開発することである。
職業の階層構造を組み込むことで,予測精度が1-2ポイント向上することを示す。
クローズドおよびオープンソースソフトウェアを用いて翻訳されたデータに基づいてバイリンガル(ポーランド語と英語)とマルチリンガル(24言語)モデルを開発する。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License:
- Abstract: The goal of this paper is to develop a multilingual classifier and conditional probability estimator of occupation codes for online job advertisements according in accordance with the International Standard Classification of Occupations (ISCO) extended with the Polish Classification of Occupations and Specializations (KZiS), which is analogous to the European Classification of Occupations. In this paper, we utilise a range of data sources, including a novel one, namely the Central Job Offers Database, which is a register of all vacancies submitted to Public Employment Offices. Their staff members code the vacancies according to the ISCO and KZiS. A hierarchical multi-class classifier has been developed based on the transformer architecture. The classifier begins by encoding the jobs found in advertisements to the widest 1-digit occupational group, and then narrows the assignment to a 6-digit occupation code. We show that incorporation of the hierarchical structure of occupations improves prediction accuracy by 1-2 percentage points, particularly for the hand-coded online job advertisements. Finally, a bilingual (Polish and English) and multilingual (24 languages) model is developed based on data translated using closed and open-source software. The open-source software is provided for the benefit of the official statistics community, with a particular focus on international comparability.
- Abstract(参考訳): 本研究の目的は、ポーランド占領特化分類(KZiS)により拡張されたISCO(International Standard Classification of Occupations)に基づき、オンライン求人広告の職業コードの多言語分類と条件付き確率推定器を開発することである。
本稿では,公務員庁に提出された全ての空白の登録書であるCentral Job Offers Databaseを含む,さまざまなデータソースを利用する。
スタッフは、ISCOとKZiSに準じて、空白をコードする。
トランスアーキテクチャに基づく階層型マルチクラス分類器が開発されている。
分類器は、広告で見つかったジョブを最も広い1桁の職業グループにエンコードし、次に6桁の職業コードに割り当てる。
本研究では,職業の階層構造を取り入れることで,特に手書きオンライン求人広告において,予測精度が1~2ポイント向上することを示す。
最後に、クローズドおよびオープンソースソフトウェアを用いて翻訳されたデータに基づいて、バイリンガル(ポーランド語と英語)とマルチリンガル(24言語)モデルを開発する。
オープンソースソフトウェアは公式統計コミュニティの利益のために提供されており、特に国際的可視性に焦点を当てている。
関連論文リスト
- Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Hierarchical Classification of Transversal Skills in Job Ads Based on
Sentence Embeddings [0.0]
本稿では,求人広告要件とスキルセットの相関関係をディープラーニングモデルを用いて同定することを目的とする。
このアプローチには、ESCO(European Skills, Competences, Occupations)分類を使用したデータ収集、事前処理、ラベル付けが含まれる。
論文 参考訳(メタデータ) (2024-01-10T11:07:32Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - ESCOXLM-R: Multilingual Taxonomy-driven Pre-training for the Job Market
Domain [26.045871822474723]
XLM-RをベースとしたESCOXLM-Rという言語モデルを導入し,欧州技能・能力・資格・職業分類のドメイン適応型事前学習を行った。
本研究では,ESCOXLM-Rを6つのシークエンスラベリングと4つの言語における3つの分類タスクで評価し,9つのデータセットのうち6つで最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2023-05-20T04:50:20Z) - Predicting Job Titles from Job Descriptions with Multi-label Text
Classification [0.0]
ジョブ記述テキストから関連職名を予測するための多ラベル分類手法を提案する。
本稿では,Bio-GRU-LSTM-CNNを各種事前学習言語モデルで実装し,職種予測問題に適用する。
論文 参考訳(メタデータ) (2021-12-21T09:31:03Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。