論文の概要: ESCOXLM-R: Multilingual Taxonomy-driven Pre-training for the Job Market
Domain
- arxiv url: http://arxiv.org/abs/2305.12092v1
- Date: Sat, 20 May 2023 04:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:46:42.729881
- Title: ESCOXLM-R: Multilingual Taxonomy-driven Pre-training for the Job Market
Domain
- Title(参考訳): ESCOXLM-R:ジョブマーケットドメインのための多言語分類による事前訓練
- Authors: Mike Zhang and Rob van der Goot and Barbara Plank
- Abstract要約: XLM-RをベースとしたESCOXLM-Rという言語モデルを導入し,欧州技能・能力・資格・職業分類のドメイン適応型事前学習を行った。
本研究では,ESCOXLM-Rを6つのシークエンスラベリングと4つの言語における3つの分類タスクで評価し,9つのデータセットのうち6つで最先端の結果が得られることを示した。
- 参考スコア(独自算出の注目度): 26.045871822474723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing number of benchmarks for Natural Language Processing (NLP)
tasks in the computational job market domain highlights the demand for methods
that can handle job-related tasks such as skill extraction, skill
classification, job title classification, and de-identification. While some
approaches have been developed that are specific to the job market domain,
there is a lack of generalized, multilingual models and benchmarks for these
tasks. In this study, we introduce a language model called ESCOXLM-R, based on
XLM-R, which uses domain-adaptive pre-training on the European Skills,
Competences, Qualifications and Occupations (ESCO) taxonomy, covering 27
languages. The pre-training objectives for ESCOXLM-R include dynamic masked
language modeling and a novel additional objective for inducing multilingual
taxonomical ESCO relations. We comprehensively evaluate the performance of
ESCOXLM-R on 6 sequence labeling and 3 classification tasks in 4 languages and
find that it achieves state-of-the-art results on 6 out of 9 datasets. Our
analysis reveals that ESCOXLM-R performs better on short spans and outperforms
XLM-R on entity-level and surface-level span-F1, likely due to ESCO containing
short skill and occupation titles, and encoding information on the
entity-level.
- Abstract(参考訳): 計算ジョブ市場領域における自然言語処理(NLP)タスクのベンチマークの増加は、スキル抽出、スキル分類、職名分類、非識別といった仕事関連のタスクを処理できる手法の需要を浮き彫りにしている。
ジョブマーケット領域に特有のアプローチが開発されているが、これらのタスクには一般化された多言語モデルとベンチマークが欠如している。
本研究では,escoxlm-rという言語モデルを導入し,欧州のスキル,能力,資格,職業(esco)をドメイン適応的に事前学習し,27言語をカバーする。
ESCOXLM-Rの事前学習目的には、動的マスキング言語モデリングと、多言語的なESCO関係を誘導する新たな目的が含まれる。
4つの言語で6つのシーケンスラベリングと3つの分類タスクにおけるescoxlm-rの性能を包括的に評価し、9つのデータセットのうち6つで最新の結果を得た。
分析の結果,ESCOXLM-Rは短距離のスパンや表面のスパンF1でのXLM-Rよりも優れており,その原因は,短距離のスキルと職業のタイトルを含むESCOや,エンティティレベルの情報を符号化することにある。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - XLM-K: Improving Cross-Lingual Language Model Pre-Training with
Multilingual Knowledge [31.765178013933134]
言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。
本稿では,事前学習に多言語知識を取り入れた言語間言語モデルXLM-Kを提案する。
論文 参考訳(メタデータ) (2021-09-26T11:46:20Z) - XeroAlign: Zero-Shot Cross-lingual Transformer Alignment [9.340611077939828]
XLM-Rなどのクロスリンガルプリトレーニングトランスのタスク固有アライメント法について紹介する。
XeroAlignは翻訳されたタスクデータを使用して、モデルが異なる言語の同様の文埋め込みを生成するよう促します。
XLM-RAのテキスト分類精度はラベル付きデータで訓練されたXLM-Rよりも優れており、言語間対数パラフレーズタスクにおける最先端のモデルと同等である。
論文 参考訳(メタデータ) (2021-05-06T07:10:00Z) - Meta-Learning for Effective Multi-task and Multilingual Modelling [23.53779501937046]
タスクと言語間の相互作用を学ぶためのメタラーニング手法を提案する。
我々は、XTREME多言語ベンチマークデータセットから5つの異なるタスクと6つの異なる言語に関する実験を提示する。
論文 参考訳(メタデータ) (2021-01-25T19:30:26Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - On Learning Universal Representations Across Languages [37.555675157198145]
文レベルの表現を学習するための既存のアプローチを拡張し、言語間理解と生成の有効性を示す。
具体的には,複数の言語に分散した並列文の普遍表現を学習するための階層型コントラスト学習(HiCTL)手法を提案する。
我々は、XTREMEと機械翻訳という2つの難解な言語間タスクについて評価を行う。
論文 参考訳(メタデータ) (2020-07-31T10:58:39Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。