論文の概要: How AI Forecasts AI Jobs: Benchmarking LLM Predictions of Labor Market Changes
- arxiv url: http://arxiv.org/abs/2510.23358v1
- Date: Mon, 27 Oct 2025 14:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.568056
- Title: How AI Forecasts AI Jobs: Benchmarking LLM Predictions of Labor Market Changes
- Title(参考訳): AIがAIジョブを予測する方法 - 労働市場の変化のLLM予測のベンチマーク
- Authors: Sheri Osborn, Rohit Valecha, H. Raghav Rao, Dan Sass, Anthony Rios,
- Abstract要約: 本稿では,大規模言語モデル(LLM)が仕事需要の変化をどの程度予測できるかを評価するためのベンチマークを紹介する。
当社のベンチマークでは、米国におけるセクターレベルの求職率の高頻度指標と、AIの採用による職業変化のグローバルデータセットの2つのデータセットを組み合わせています。
その結果、構造化タスクは予測安定性を継続的に改善し、ペルソナプロンプトは短期的な傾向に有利であることがわかった。
- 参考スコア(独自算出の注目度): 5.848712585343904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence is reshaping labor markets, yet we lack tools to systematically forecast its effects on employment. This paper introduces a benchmark for evaluating how well large language models (LLMs) can anticipate changes in job demand, especially in occupations affected by AI. Existing research has shown that LLMs can extract sentiment, summarize economic reports, and emulate forecaster behavior, but little work has assessed their use for forward-looking labor prediction. Our benchmark combines two complementary datasets: a high-frequency index of sector-level job postings in the United States, and a global dataset of projected occupational changes due to AI adoption. We format these data into forecasting tasks with clear temporal splits, minimizing the risk of information leakage. We then evaluate LLMs using multiple prompting strategies, comparing task-scaffolded, persona-driven, and hybrid approaches across model families. We assess both quantitative accuracy and qualitative consistency over time. Results show that structured task prompts consistently improve forecast stability, while persona prompts offer advantages on short-term trends. However, performance varies significantly across sectors and horizons, highlighting the need for domain-aware prompting and rigorous evaluation protocols. By releasing our benchmark, we aim to support future research on labor forecasting, prompt design, and LLM-based economic reasoning. This work contributes to a growing body of research on how LLMs interact with real-world economic data, and provides a reproducible testbed for studying the limits and opportunities of AI as a forecasting tool in the context of labor markets.
- Abstract(参考訳): 人工知能は労働市場を変えつつあるが、雇用への影響を体系的に予測するツールがない。
本稿では,大規模言語モデル(LLM)が仕事の需要の変化をいかに予測できるかを評価するためのベンチマークを紹介する。
既存の研究によると、LLMは感情を抽出し、経済報告を要約し、予測者の行動をエミュレートできるが、前向きな労働予測に対する彼らの使用を評価する研究はほとんどない。
当社のベンチマークでは、米国におけるセクターレベルの求職率の高頻度指標と、AIの採用による職業変化のグローバルデータセットの2つの補完的データセットを組み合わせています。
情報漏洩のリスクを最小限に抑えながら、これらのデータを時間分割で予測タスクにフォーマットする。
次に、複数のプロンプト戦略を用いてLCMを評価し、モデルファミリ間のタスクスキャフォールド、ペルソナ駆動、ハイブリッドアプローチを比較した。
定量的な精度と定性的な一貫性を時間とともに評価する。
その結果、構造化タスクは予測安定性を継続的に改善し、ペルソナプロンプトは短期的な傾向に有利であることがわかった。
しかし、パフォーマンスはセクターや地平線によって大きく異なり、ドメイン認識のプロンプトと厳密な評価プロトコルの必要性が強調されている。
このベンチマークを公表することで、労働予測、迅速な設計、LLMに基づく経済推論に関する今後の研究を支援することを目指している。
この研究は、LLMが現実世界の経済データとどのように相互作用するかの研究に寄与し、労働市場の文脈における予測ツールとしてのAIの限界と機会を研究する再現可能なテストベッドを提供する。
関連論文リスト
- LLM-as-a-Prophet: Understanding Predictive Intelligence with Prophet Arena [25.304644327116975]
大規模言語モデル(LLM)は、将来の事象を予測するために、インターネットスケールのデータに基づいて訓練されている。
本稿では,LLMの予測知能について系統的に検討する。
LLM-as-a-Prophetによる優れた予測知能の実現に向けた重要なボトルネックを明らかにする。
論文 参考訳(メタデータ) (2025-10-20T15:20:05Z) - FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [92.7392863957204]
FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。
リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。
推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
論文 参考訳(メタデータ) (2025-08-16T08:54:08Z) - Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs [57.82819770709032]
大規模言語モデル (LLM) は、na "ive direct prompting" を通じて効果的な文脈支援予測を行うことができる。
ReDPは、明確な推論トレースを抽出することで、解釈可能性を改善し、コンテキスト上でモデルの推論を評価することができる。
CorDPはLLMを活用して、既存の予測をコンテキストで洗練し、現実の予測パイプラインにおける適用性を高める。
IC-DPは、文脈支援予測タスクの歴史的例を即時に組み込むことを提案し、大規模モデルにおいても精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-13T16:02:55Z) - Evaluating LLM-corrupted Crowdsourcing Data Without Ground Truth [21.672923905771576]
クラウドソーシングワーカーによる大規模言語モデル(LLM)は、人間の入力を反映するデータセットに挑戦する。
LLMの共謀を考慮に入れたクラウドソーシングモデルの下で,理論的保証付き学習自由スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-06-08T04:38:39Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。