Fugu-MT 論文翻訳(概要): Learning Transferrable Representations of Career Trajectories for Economic Prediction

論文の概要: Learning Transferrable Representations of Career Trajectories for Economic Prediction

arxiv url: http://arxiv.org/abs/2202.08370v1
Date: Wed, 16 Feb 2022 23:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-18 15:13:57.442330
Title: Learning Transferrable Representations of Career Trajectories for Economic Prediction
Title（参考訳）: 経済予測のためのキャリア軌道の学習可能表現
Authors: Keyon Vafa, Emil Palikot, Tianyu Du, Ayush Kanodia, Susan Athey, David M. Blei
Abstract要約: CAREERは、個人の仕事履歴の低次元表現を学ぶモデルである。大規模なデータセット上でジョブを直接予測したり、あるいは"転送"して、より小さく、よりよく計算されたデータセットでジョブを表現したりすることができる。保持されたデータ上で正確な予測を生成し、一般的な経済データセット上で正確な予測を行うための微調整が可能な、有用なキャリア表現を学習する。
参考スコア（独自算出の注目度）: 27.88158184857868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding career trajectories -- the sequences of jobs that individuals hold over their working lives -- is important to economists for studying labor markets. In the past, economists have estimated relevant quantities by fitting predictive models to small surveys, but in recent years large datasets of online resumes have also become available. These new datasets provide job sequences of many more individuals, but they are too large and complex for standard econometric modeling. To this end, we adapt ideas from modern language modeling to the analysis of large-scale job sequence data. We develop CAREER, a transformer-based model that learns a low-dimensional representation of an individual's job history. This representation can be used to predict jobs directly on a large dataset, or can be "transferred" to represent jobs in smaller and better-curated datasets. We fit the model to a large dataset of resumes, 24 million people who are involved in more than a thousand unique occupations. It forms accurate predictions on held-out data, and it learns useful career representations that can be fine-tuned to make accurate predictions on common economics datasets.
Abstract（参考訳）: 労働市場を研究する経済学者にとって、個人が労働生活を掌握する仕事の順序を理解することは重要だ。過去、経済学者は小さな調査に予測モデルを適用することで関連する量を推定してきたが、近年ではオンライン履歴書の大きなデータセットも利用可能になっている。これらの新しいデータセットは、より多くの個人のジョブシーケンスを提供するが、標準のエコノメトリモデリングには大きすぎて複雑すぎる。この目的のために,現代言語モデリングのアイデアを大規模ジョブシーケンスデータの解析に適用する。我々は、個人の仕事履歴の低次元表現を学習するトランスフォーマーベースモデルであるCAREERを開発する。この表現は、大規模なデータセット上で直接ジョブを予測するために使用することも、より小さくより正確なデータセットでジョブを表現するために"転送"することもできる。私たちはこのモデルを、数千以上のユニークな職業に関わる2400万人の履歴書の大規模なデータセットに適合させます。保持されたデータで正確な予測を作り、共通の経済データセットで正確な予測を行うように微調整された有用なキャリア表現を学習する。

関連論文リスト

JobHop: A Large-Scale Dataset of Career Trajectories [48.881023210777585]
ジョブホップ(JobHop)は、ベルギーのフランドルにある公共雇用サービスVDABが提供する匿名の履歴書から派生した大規模なパブリックデータセットである。構造化されていない履歴データを処理して、構造化された経歴情報を抽出し、標準化された ESCO の職業コードにマッピングする。これにより、230万以上の作業経験の豊富なデータセットが抽出され、391,000以上のユーザ履歴書にまとめられる。
論文参考訳（メタデータ） (2025-05-12T15:22:29Z)
Unemployment Dynamics Forecasting with Machine Learning Regression Models [1.9761774213809031]
本稿では、月次失業率データに回帰と機械学習の手法を適用し、タイムリーな予測を行う方法について検討した。私は、線形回帰、SGDRegressor、ランダムフォレスト、XGBoost、CatBoost、サポートベクター回帰、LSTMネットワークの7つのモデルを比較した。我々の研究は、現代の機械学習技術がリアルタイムの失業予測を強化し、経済学者や政策立案者が労働市場の動向についてより深い洞察を提供する方法を示している。
論文参考訳（メタデータ） (2025-05-03T21:55:28Z)
Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文参考訳（メタデータ） (2025-02-16T11:46:23Z)
Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training [51.60874286674908]
我々は,事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。 1)事前学習プロセス全体,特にデータ構築を習得すること,2)モデルの知識保持を評価すること,3)トレーニング前に利用可能な情報のみを使用してタスク固有の知識保持を予測すること,の3つの課題に対処する。本稿では,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMIメトリクスを紹介する。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
KARRIEREWEGE: A Large Scale Career Path Prediction Dataset [29.24421465266904]
我々は500万以上のキャリアパスを含む包括的な公開データセットであるKARRIEREWEGEを紹介する。履歴書に典型的に見られる自由テキスト入力の問題に対処するために,職名や記述を合成することで,それを強化する。これにより、非構造化データからの正確な予測が可能になり、実際のアプリケーションの課題と密接に一致します。
論文参考訳（メタデータ） (2024-12-19T08:02:08Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Enriching Datasets with Demographics through Large Language Models: What's in a Name? [5.871504332441324]
LLM(Large Language Models)は、特殊なデータに基づいてトレーニングされた振る舞いモデルだけでなく、パフォーマンスも向上する。香港の認可された金融専門家の実際のデータセットを含む、さまざまなデータセットにこれらのLCMを適用します。
論文参考訳（メタデータ） (2024-09-17T18:40:49Z)
Estimating Wage Disparities Using Foundation Models [20.740346109417143]
我々は,推定問題を実行するための基礎モデルを微調整する手法を開発した。我々の考えを実証するために、ジェンダー賃金の分解について研究する。我々は、男女賃金格差を解消するために、カスタム構築のファンデーションモデルを使用します。
論文参考訳（メタデータ） (2024-09-15T23:22:21Z)
DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文参考訳（メタデータ） (2024-09-12T02:08:00Z)
Evaluating Pre-Training Bias on Severe Acute Respiratory Syndrome Dataset [0.0]
この研究は、OpenDataSUSの重症急性呼吸症候群データセットを使用して、3つのトレーニング済みバイアスメトリクスを可視化する。目的は、異なる領域のバイアスを比較し、保護された属性に注目し、モデルのパフォーマンスとメトリック値を比較することである。
論文参考訳（メタデータ） (2024-08-27T20:49:11Z)
LABOR-LLM: Language-Based Occupational Representations with Large Language Models [8.909328013944567]
本稿では,CAREER ファンデーションモデルの微調整を微調整 LLM に置き換える方法を検討する。細調整されたLLMモデル予測は、市販のLLMモデルやCAREERよりも、様々な労働者サブ集団のキャリアトラジェクトリを代表していることを示す。
論文参考訳（メタデータ） (2024-06-25T23:07:18Z)
Graphical vs. Deep Generative Models: Measuring the Impact of Differentially Private Mechanisms and Budgets on Utility [18.213030598476198]
私たちはグラフィカルモデルと深層生成モデルを比較し、プライバシー予算の支出に寄与する重要な要素に注目します。グラフィカルモデルでは,プライバシ予算を水平方向に分散させることで,一定のトレーニング時間において比較的広いデータセットを処理できないことがわかった。深層生成モデルはイテレーション毎に予算を消費するので、その振る舞いはさまざまなデータセットの次元で予測できない。
論文参考訳（メタデータ） (2023-05-18T14:14:42Z)
Synthetic Model Combination: An Instance-wise Approach to Unsupervised Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文参考訳（メタデータ） (2022-10-11T10:20:31Z)
Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文参考訳（メタデータ） (2022-02-01T18:15:24Z)
When Can Models Learn From Explanations? A Formal Framework for Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。 e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文参考訳（メタデータ） (2021-02-03T18:57:08Z)
REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。 1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文参考訳（メタデータ） (2020-04-16T23:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。