論文の概要: KARRIEREWEGE: A Large Scale Career Path Prediction Dataset
- arxiv url: http://arxiv.org/abs/2412.14612v1
- Date: Thu, 19 Dec 2024 08:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:06.286429
- Title: KARRIEREWEGE: A Large Scale Career Path Prediction Dataset
- Title(参考訳): KARRIEREWEGE: 大規模キャリアパス予測データセット
- Authors: Elena Senger, Yuri Campbell, Rob van der Goot, Barbara Plank,
- Abstract要約: 我々は500万以上のキャリアパスを含む包括的な公開データセットであるKARRIEREWEGEを紹介する。
履歴書に典型的に見られる自由テキスト入力の問題に対処するために,職名や記述を合成することで,それを強化する。
これにより、非構造化データからの正確な予測が可能になり、実際のアプリケーションの課題と密接に一致します。
- 参考スコア(独自算出の注目度): 29.24421465266904
- License:
- Abstract: Accurate career path prediction can support many stakeholders, like job seekers, recruiters, HR, and project managers. However, publicly available data and tools for career path prediction are scarce. In this work, we introduce KARRIEREWEGE, a comprehensive, publicly available dataset containing over 500k career paths, significantly surpassing the size of previously available datasets. We link the dataset to the ESCO taxonomy to offer a valuable resource for predicting career trajectories. To tackle the problem of free-text inputs typically found in resumes, we enhance it by synthesizing job titles and descriptions resulting in KARRIEREWEGE+. This allows for accurate predictions from unstructured data, closely aligning with real-world application challenges. We benchmark existing state-of-the-art (SOTA) models on our dataset and a prior benchmark and observe improved performance and robustness, particularly for free-text use cases, due to the synthesized data.
- Abstract(参考訳): 正確なキャリアパス予測は、求職者、採用者、人事、プロジェクトマネージャなど、多くの利害関係者をサポートすることができます。
しかし、キャリアパス予測のための公開データやツールはほとんどない。
本研究では,500万以上のキャリアパスを含む包括的な公開データセットであるKARRIEREWEGEを紹介する。
データセットをESCO分類にリンクし、キャリアの軌跡を予測する貴重なリソースを提供する。
履歴書に典型的に見られる自由文入力の問題に対処するため,KARRIEREWEGE+の職名と記述を合成して改善する。
これにより、非構造化データからの正確な予測が可能になり、実際のアプリケーションの課題と密接に一致します。
我々は,既存のSOTA(State-of-the-art)モデルをデータセットと事前ベンチマークでベンチマークし,特にフリーテキストのユースケースにおいて,改良されたパフォーマンスとロバスト性を観察する。
関連論文リスト
- Forecasting Future International Events: A Reliable Dataset for Text-Based Event Modeling [37.508538729757404]
WorldREPは、大規模言語モデル(LLM)の高度な推論能力を活用することで制限に対処するために設計された、新しいデータセットである。
我々のデータセットは、高度なプロンプトモデリングと、政治学の領域の専門家による厳密な検証によって生成される高品質なスコアリングラベルを特徴としている。
データ収集、ラベル付け、ベンチマークのための完全な自動化ソースコードとともに、私たちのデータセットを公開し、テキストベースのイベント予測の研究を支援し、前進させることを目指しています。
論文 参考訳(メタデータ) (2024-11-21T11:44:23Z) - Enabling Advanced Land Cover Analytics: An Integrated Data Extraction Pipeline for Predictive Modeling with the Dynamic World Dataset [1.3757956340051605]
Dynamic Worldデータセットを扱うために、フレキシブルで効率的なエンドツーエンドパイプラインを提示します。
これには、ノイズ除去に取り組む前処理および表現フレームワーク、大量のデータの効率的な抽出、LULCデータの再表現が含まれる。
パイプラインのパワーを実証するために、都市化予測問題のためのデータを抽出し、優れたパフォーマンスで機械学習モデルのスイートを構築する。
論文 参考訳(メタデータ) (2024-10-11T16:13:01Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - Career Path Prediction using Resume Representation Learning and
Skill-based Matching [14.635764829230398]
本稿では,作業履歴データに特化して設計された新しい表現学習手法であるCareerBERTを提案する。
キャリアパス予測のためのスキルベースモデルとテキストベースモデルを開発し,それぞれ35.24%,39.61%のリコール@10を得た。
論文 参考訳(メタデータ) (2023-10-24T08:56:06Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - The Stanford Drone Dataset is More Complex than We Think: An Analysis of
Key Characteristics [2.064612766965483]
スタンフォード・ドローン・データセット(SDD)の特徴について論じる。
この不便さがユーザに提供する情報を減らし,パフォーマンスに与える影響を実証する。
私たちの意図は、今後このデータセットに適用されるパフォーマンスとメソッドを向上させると同時に、新しいユーザのためのデータセットの明らかでない特徴を明確化することにあります。
論文 参考訳(メタデータ) (2022-03-22T13:58:14Z) - CAREER: A Foundation Model for Labor Sequence Data [21.38386300423882]
ジョブシーケンスの基礎モデルであるCAREERを開発した。
CAREERは最初、大規模で受動的に収集された履歴データに適合し、その後、経済的な推測のためにより小さく、より精度の良いデータセットに微調整される。
我々はCAREERがジョブシーケンスの正確な予測をし、広く使われている3つの経済データセットのエコノメトリベースラインを上回ります。
論文 参考訳(メタデータ) (2022-02-16T23:23:50Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。