論文の概要: Learning Transferrable Representations of Career Trajectories for
Economic Prediction
- arxiv url: http://arxiv.org/abs/2202.08370v1
- Date: Wed, 16 Feb 2022 23:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 15:13:57.442330
- Title: Learning Transferrable Representations of Career Trajectories for
Economic Prediction
- Title(参考訳): 経済予測のためのキャリア軌道の学習可能表現
- Authors: Keyon Vafa, Emil Palikot, Tianyu Du, Ayush Kanodia, Susan Athey, David
M. Blei
- Abstract要約: CAREERは、個人の仕事履歴の低次元表現を学ぶモデルである。
大規模なデータセット上でジョブを直接予測したり、あるいは"転送"して、より小さく、よりよく計算されたデータセットでジョブを表現したりすることができる。
保持されたデータ上で正確な予測を生成し、一般的な経済データセット上で正確な予測を行うための微調整が可能な、有用なキャリア表現を学習する。
- 参考スコア(独自算出の注目度): 27.88158184857868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding career trajectories -- the sequences of jobs that individuals
hold over their working lives -- is important to economists for studying labor
markets. In the past, economists have estimated relevant quantities by fitting
predictive models to small surveys, but in recent years large datasets of
online resumes have also become available. These new datasets provide job
sequences of many more individuals, but they are too large and complex for
standard econometric modeling. To this end, we adapt ideas from modern language
modeling to the analysis of large-scale job sequence data. We develop CAREER, a
transformer-based model that learns a low-dimensional representation of an
individual's job history. This representation can be used to predict jobs
directly on a large dataset, or can be "transferred" to represent jobs in
smaller and better-curated datasets. We fit the model to a large dataset of
resumes, 24 million people who are involved in more than a thousand unique
occupations. It forms accurate predictions on held-out data, and it learns
useful career representations that can be fine-tuned to make accurate
predictions on common economics datasets.
- Abstract(参考訳): 労働市場を研究する経済学者にとって、個人が労働生活を掌握する仕事の順序を理解することは重要だ。
過去、経済学者は小さな調査に予測モデルを適用することで関連する量を推定してきたが、近年ではオンライン履歴書の大きなデータセットも利用可能になっている。
これらの新しいデータセットは、より多くの個人のジョブシーケンスを提供するが、標準のエコノメトリモデリングには大きすぎて複雑すぎる。
この目的のために,現代言語モデリングのアイデアを大規模ジョブシーケンスデータの解析に適用する。
我々は、個人の仕事履歴の低次元表現を学習するトランスフォーマーベースモデルであるCAREERを開発する。
この表現は、大規模なデータセット上で直接ジョブを予測するために使用することも、より小さくより正確なデータセットでジョブを表現するために"転送"することもできる。
私たちはこのモデルを、数千以上のユニークな職業に関わる2400万人の履歴書の大規模なデータセットに適合させます。
保持されたデータで正確な予測を作り、共通の経済データセットで正確な予測を行うように微調整された有用なキャリア表現を学習する。
関連論文リスト
- EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models [6.506937003687058]
スタンフォード大学の6,739人の患者の電子健康記録(EHRs)から構造化されたデータを含む新しいデータセット EHRSHOT を公表した。
第2に,257万症例のERHデータに基づいて事前訓練した141Mパラメータ臨床基盤モデルであるCLMBR-T-baseの重みを公表した。
第3に、15の臨床的予測タスクを定義し、サンプル効率やタスク適応などの利点に基づく基礎モデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-07-05T05:24:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Variation of Gender Biases in Visual Recognition Models Before and After
Finetuning [29.55318393877906]
本稿では,下流タスクにおける大規模視覚認識モデルの微調整前後のバイアスの変化を計測するフレームワークを提案する。
ImageNet-21kのようなデータセットでトレーニングされた教師付きモデルは、事前学習されたバイアスを保持する傾向にある。
また、大規模データセットに微調整されたモデルでは、新しいバイアス付きアソシエーションを導入する可能性が高くなることもわかりました。
論文 参考訳(メタデータ) (2023-03-14T03:42:47Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Variational Bayes survival analysis for unemployment modelling [0.0]
このモデルは、スロベニアの公共雇用サービスによって提供される2011年から2020年までのタイム・ツー・雇用データに基づいて評価される。
同様のモデルは、検閲されたレコードを含む多次元、高次のカテゴリデータで他の問題に適用することができる。
論文 参考訳(メタデータ) (2021-02-03T21:06:54Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。