論文の概要: Multilingual JobBERT for Cross-Lingual Job Title Matching
- arxiv url: http://arxiv.org/abs/2507.21609v1
- Date: Tue, 29 Jul 2025 09:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.957309
- Title: Multilingual JobBERT for Cross-Lingual Job Title Matching
- Title(参考訳): 言語間ジョブタイトルマッチングのための多言語JobBERT
- Authors: Jens-Joris Decorte, Matthias De Lange, Jeroen Van Hautte,
- Abstract要約: JobBERT-V3は、言語間ジョブタイトルマッチングのための対照的な学習モデルである。
私たちのアプローチは、合成翻訳を活用して、英語、ドイツ語、スペイン語、中国語へのサポートを拡大します。
JobBERT-V3はモノリンガル設定とクロスランガル設定の両方で一貫したパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 5.284778677072807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce JobBERT-V3, a contrastive learning-based model for cross-lingual job title matching. Building on the state-of-the-art monolingual JobBERT-V2, our approach extends support to English, German, Spanish, and Chinese by leveraging synthetic translations and a balanced multilingual dataset of over 21 million job titles. The model retains the efficiency-focused architecture of its predecessor while enabling robust alignment across languages without requiring task-specific supervision. Extensive evaluations on the TalentCLEF 2025 benchmark demonstrate that JobBERT-V3 outperforms strong multilingual baselines and achieves consistent performance across both monolingual and cross-lingual settings. While not the primary focus, we also show that the model can be effectively used to rank relevant skills for a given job title, demonstrating its broader applicability in multilingual labor market intelligence. The model is publicly available: https://huggingface.co/TechWolf/JobBERT-v3.
- Abstract(参考訳): ジョブBERT-V3は、言語間ジョブタイトルマッチングのための対照的な学習モデルである。
我々のアプローチは、最先端のモノリンガルJobBERT-V2に基づいており、合成翻訳と2100万以上の職種からなるバランスの取れた多言語データセットを活用することで、英語、ドイツ語、スペイン語、中国語へのサポートを拡張しています。
このモデルは、タスク固有の監督を必要とせず、言語間の堅牢なアライメントを可能にしながら、前者の効率を重視したアーキテクチャを維持している。
TalentCLEF 2025ベンチマークの大規模な評価では、JobBERT-V3は強い多言語ベースラインを上回り、モノリンガルとクロスランガルの両方で一貫したパフォーマンスを実現している。
主な焦点ではないが、このモデルが特定の職種に対する関連スキルのランク付けに有効であることを示し、多言語労働市場インテリジェンスにおけるその適用性を示す。
モデルは、https://huggingface.co/TechWolf/JobBERT-v3.comで公開されている。
関連論文リスト
- Overview of the TalentCLEF 2025: Skill and Job Title Intelligence for Human Capital Management [0.2276267460638319]
本稿では,スキルと肩書のインテリジェンスに着目した最初の評価キャンペーンであるTalentCLEF 2025を紹介する。
評価にはモノリンガルとクロスランガルのシナリオが含まれ、性別バイアスの評価をカバーした。
TalentCLEFはこの分野で最初の公開ベンチマークを提供し、労働市場向けの堅牢で公平で移動可能な言語技術の開発を奨励している。
論文 参考訳(メタデータ) (2025-07-17T16:33:57Z) - Multilingual Definition Modeling [1.9409995498330783]
私たちは4つの新言語(スペイン語、フランス語、ポルトガル語、ドイツ語)に単言語辞書データを使用します。
このデータに微調整を施すと, 単文単語の定義モデル上で, 事前学習した多言語言語モデルの性能を検証した。
結果から,多言語モデルでは英語のオンペア化が可能であるが,言語間相乗効果の可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-02T09:48:37Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - conSultantBERT: Fine-tuned Siamese Sentence-BERT for Matching Jobs and
Job Seekers [2.208694022993555]
解析された履歴データのノイズ、異なるデータソースの異種性、およびクロスリンガル性および多言語性がドメイン固有の課題であることを示す。
我々は、大規模な実世界と高品質のデータセットを使用して、当社のスタッフコンサルタントによってラベル付けされた270,000回の再開空白ペアを使用して、conSultantBERT(conSultantBERT)と呼ばれるSiamese Sentence Siamese-BERT(SBERT)モデルを微調整することで、これらの課題に対処する。
我々の微調整モデルはTF-IDF重み付き特徴ベクトルとBERT埋め込みに依存する教師なしベースラインと教師なしベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-14T07:57:05Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。