論文の概要: Overview of the TalentCLEF 2025: Skill and Job Title Intelligence for Human Capital Management
- arxiv url: http://arxiv.org/abs/2507.13275v1
- Date: Thu, 17 Jul 2025 16:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.576272
- Title: Overview of the TalentCLEF 2025: Skill and Job Title Intelligence for Human Capital Management
- Title(参考訳): タレントCLEF2025の概要
- Authors: Luis Gasco, Hermenegildo Fabregat, Laura García-Sardiña, Paula Estrella, Daniel Deniz, Alvaro Rodrigo, Rabih Zbib,
- Abstract要約: 本稿では,スキルと肩書のインテリジェンスに着目した最初の評価キャンペーンであるTalentCLEF 2025を紹介する。
評価にはモノリンガルとクロスランガルのシナリオが含まれ、性別バイアスの評価をカバーした。
TalentCLEFはこの分野で最初の公開ベンチマークを提供し、労働市場向けの堅牢で公平で移動可能な言語技術の開発を奨励している。
- 参考スコア(独自算出の注目度): 0.2276267460638319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in natural language processing and large language models are driving a major transformation in Human Capital Management, with a growing interest in building smart systems based on language technologies for talent acquisition, upskilling strategies, and workforce planning. However, the adoption and progress of these technologies critically depend on the development of reliable and fair models, properly evaluated on public data and open benchmarks, which have so far been unavailable in this domain. To address this gap, we present TalentCLEF 2025, the first evaluation campaign focused on skill and job title intelligence. The lab consists of two tasks: Task A - Multilingual Job Title Matching, covering English, Spanish, German, and Chinese; and Task B - Job Title-Based Skill Prediction, in English. Both corpora were built from real job applications, carefully anonymized, and manually annotated to reflect the complexity and diversity of real-world labor market data, including linguistic variability and gender-marked expressions. The evaluations included monolingual and cross-lingual scenarios and covered the evaluation of gender bias. TalentCLEF attracted 76 registered teams with more than 280 submissions. Most systems relied on information retrieval techniques built with multilingual encoder-based models fine-tuned with contrastive learning, and several of them incorporated large language models for data augmentation or re-ranking. The results show that the training strategies have a larger effect than the size of the model alone. TalentCLEF provides the first public benchmark in this field and encourages the development of robust, fair, and transferable language technologies for the labor market.
- Abstract(参考訳): 自然言語処理と大規模言語モデルの進歩は、人材獲得、スキル向上戦略、労働計画のための言語技術に基づくスマートシステム構築への関心が高まっている。
しかし、これらの技術の採用と進歩は、この領域では利用できない公開データやオープンベンチマークに基づいて適切に評価された信頼性と公正なモデルの開発に大きく依存している。
このギャップに対処するため,我々は,スキルと肩書の知性に着目した最初の評価キャンペーンであるTalentCLEF 2025を紹介した。
実験室は、英語、スペイン語、ドイツ語、中国語をカバーするタスクAと、英語でジョブBをベースとしたスキル予測という2つのタスクで構成されている。
両方のコーパスは、実際のジョブアプリケーションから構築され、慎重に匿名化され、言語的多様性やジェンダーマーク付き表現を含む実世界の労働市場データの複雑さと多様性を反映するために手動で注釈付けされた。
評価にはモノリンガルとクロスランガルのシナリオが含まれ、性別バイアスの評価をカバーした。
TalentCLEFには76の登録チームがあり、280以上の応募があった。
ほとんどのシステムは、多言語エンコーダベースのモデルで構築された情報検索技術に依存しており、データ拡張や再ランク付けのための大規模言語モデルも組み込まれている。
その結果、トレーニング戦略はモデルのサイズ単独よりも大きな効果があることがわかった。
TalentCLEFはこの分野で最初の公開ベンチマークを提供し、労働市場向けの堅牢で公平で移動可能な言語技術の開発を奨励している。
関連論文リスト
- Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review [0.7366405857677227]
本稿では、低リソース言語(LRL)における生成言語モデリングにおけるデータ不足に対処する戦略に焦点を当てる。
モノリンガルデータ拡張、バックトランスレーション、多言語トレーニング、即興エンジニアリングなど、技術的アプローチを特定し、分類し、評価する。
我々は,これらの手法を広い範囲のLRLに拡張することを推奨し,同値生成言語システムを構築する上でのオープンな課題を概説する。
論文 参考訳(メタデータ) (2025-05-07T16:04:45Z) - Entity-aware Cross-lingual Claim Detection for Automated Fact-checking [7.242609314791262]
我々は,多言語クレームを扱うために,多言語クレームを適切に一般化するエンティティ対応言語間クレーム検出モデルであるEx-Claimを紹介する。
27言語にまたがる一貫したパフォーマンス向上と、トレーニング中に目に見えない言語間での堅牢な知識伝達を示す。
論文 参考訳(メタデータ) (2025-03-19T14:00:55Z) - Tec-Habilidad: Skill Classification for Bridging Education and Employment [0.7373617024876725]
本稿では,スキル抽出と分類のためのスペイン語データセットを開発する。
知識、スキル、能力を区別するアノテーションの方法論を提供する。
また、スキル分類のための堅牢なソリューションを進めるためのディープラーニングベースラインも提供する。
論文 参考訳(メタデータ) (2025-03-05T22:05:42Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。