論文の概要: CAREER: A Foundation Model for Labor Sequence Data
- arxiv url: http://arxiv.org/abs/2202.08370v4
- Date: Thu, 29 Feb 2024 16:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 15:28:37.991572
- Title: CAREER: A Foundation Model for Labor Sequence Data
- Title(参考訳): CAREER:労働シーケンスデータの基礎モデル
- Authors: Keyon Vafa, Emil Palikot, Tianyu Du, Ayush Kanodia, Susan Athey, David
M. Blei
- Abstract要約: ジョブシーケンスの基礎モデルであるCAREERを開発した。
CAREERは最初、大規模で受動的に収集された履歴データに適合し、その後、経済的な推測のためにより小さく、より精度の良いデータセットに微調整される。
我々はCAREERがジョブシーケンスの正確な予測をし、広く使われている3つの経済データセットのエコノメトリベースラインを上回ります。
- 参考スコア(独自算出の注目度): 21.38386300423882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labor economists regularly analyze employment data by fitting predictive
models to small, carefully constructed longitudinal survey datasets. Although
machine learning methods offer promise for such problems, these survey datasets
are too small to take advantage of them. In recent years large datasets of
online resumes have also become available, providing data about the career
trajectories of millions of individuals. However, standard econometric models
cannot take advantage of their scale or incorporate them into the analysis of
survey data. To this end we develop CAREER, a foundation model for job
sequences. CAREER is first fit to large, passively-collected resume data and
then fine-tuned to smaller, better-curated datasets for economic inferences. We
fit CAREER to a dataset of 24 million job sequences from resumes, and adjust it
on small longitudinal survey datasets. We find that CAREER forms accurate
predictions of job sequences, outperforming econometric baselines on three
widely-used economics datasets. We further find that CAREER can be used to form
good predictions of other downstream variables. For example, incorporating
CAREER into a wage model provides better predictions than the econometric
models currently in use.
- Abstract(参考訳): 労働経済学者は、小規模で注意深く構築された縦断調査データセットに予測モデルを適用することで、雇用データを定期的に分析する。
機械学習の手法はそのような問題に対する保証を提供するが、これらの調査データセットは小さすぎて活用できない。
近年、オンライン履歴書の大規模なデータセットも利用可能になり、数百万人の個人のキャリア跡に関するデータを提供している。
しかし、標準計量モデルは、そのスケールを活用できないし、サーベイデータの分析に組み込むことはできない。
そこで我々は,ジョブシーケンスの基礎モデルであるCAREERを開発した。
キャリアはまず、大きく、受動的に収集された履歴データに適合し、次に経済推論のためのより小さく、より正確なデータセットに微調整される。
履歴書から2400万のジョブシーケンスのデータセットにキャリアを適合させ、小さな縦断調査データセットに調整します。
我々はCAREERがジョブシーケンスの正確な予測をし、広く使われている3つの経済データセットのエコノメトリベースラインを上回ります。
さらに,CAREERは,他の下流変数の予測に有効であることがわかった。
例えば、CAREERを賃金モデルに組み込むことで、現在使用されている計量モデルよりも優れた予測が可能になる。
関連論文リスト
- How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models [6.506937003687058]
スタンフォード大学の6,739人の患者の電子健康記録(EHRs)から構造化されたデータを含む新しいデータセット EHRSHOT を公表した。
第2に,257万症例のERHデータに基づいて事前訓練した141Mパラメータ臨床基盤モデルであるCLMBR-T-baseの重みを公表した。
第3に、15の臨床的予測タスクを定義し、サンプル効率やタスク適応などの利点に基づく基礎モデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-07-05T05:24:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Variation of Gender Biases in Visual Recognition Models Before and After
Finetuning [29.55318393877906]
本稿では,下流タスクにおける大規模視覚認識モデルの微調整前後のバイアスの変化を計測するフレームワークを提案する。
ImageNet-21kのようなデータセットでトレーニングされた教師付きモデルは、事前学習されたバイアスを保持する傾向にある。
また、大規模データセットに微調整されたモデルでは、新しいバイアス付きアソシエーションを導入する可能性が高くなることもわかりました。
論文 参考訳(メタデータ) (2023-03-14T03:42:47Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z) - Variational Bayes survival analysis for unemployment modelling [0.0]
このモデルは、スロベニアの公共雇用サービスによって提供される2011年から2020年までのタイム・ツー・雇用データに基づいて評価される。
同様のモデルは、検閲されたレコードを含む多次元、高次のカテゴリデータで他の問題に適用することができる。
論文 参考訳(メタデータ) (2021-02-03T21:06:54Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。