論文の概要: Prompting for Policy: Forecasting Macroeconomic Scenarios with Synthetic LLM Personas
- arxiv url: http://arxiv.org/abs/2511.02458v1
- Date: Tue, 04 Nov 2025 10:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.952399
- Title: Prompting for Policy: Forecasting Macroeconomic Scenarios with Synthetic LLM Personas
- Title(参考訳): 政策のプロンプト:LLMペルソナを用いたマクロ経済シナリオの予測
- Authors: Giulia Iadisernia, Carolina Camassa,
- Abstract要約: マクロ経済予測タスクにおいて,ペルソナに基づくプロンプトがLarge Language Model (LLM) の性能を向上させるか否かを評価する。
我々は、ペルソナHubコーパスの経済関連ペルソナ2,368を用いて、GPT-4oにECBのプロフェッショナル・フォアキャスター調査を再現するよう促す。
対象変数(HICP,コアHICP,GDP成長,失業)と4つの予測地平線を比較検討した。
- 参考スコア(独自算出の注目度): 0.17188280334580197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate whether persona-based prompting improves Large Language Model (LLM) performance on macroeconomic forecasting tasks. Using 2,368 economics-related personas from the PersonaHub corpus, we prompt GPT-4o to replicate the ECB Survey of Professional Forecasters across 50 quarterly rounds (2013-2025). We compare the persona-prompted forecasts against the human experts panel, across four target variables (HICP, core HICP, GDP growth, unemployment) and four forecast horizons. We also compare the results against 100 baseline forecasts without persona descriptions to isolate its effect. We report two main findings. Firstly, GPT-4o and human forecasters achieve remarkably similar accuracy levels, with differences that are statistically significant yet practically modest. Our out-of-sample evaluation on 2024-2025 data demonstrates that GPT-4o can maintain competitive forecasting performance on unseen events, though with notable differences compared to the in-sample period. Secondly, our ablation experiment reveals no measurable forecasting advantage from persona descriptions, suggesting these prompt components can be omitted to reduce computational costs without sacrificing accuracy. Our results provide evidence that GPT-4o can achieve competitive forecasting accuracy even on out-of-sample macroeconomic events, if provided with relevant context data, while revealing that diverse prompts produce remarkably homogeneous forecasts compared to human panels.
- Abstract(参考訳): マクロ経済予測タスクにおいて,ペルソナに基づくプロンプトがLarge Language Model (LLM) の性能を向上させるか否かを評価する。
我々は、ペルソナHubコーパスから2,368人の経済関連ペルソナを用いて、GPT-4oに、50四半期のラウンド(2013-2025)にわたって、ECBのプロフェッショナル・フォアキャスター調査を再現するよう促す。
対象変数(HICP,コアHICP,GDP成長,失業)と4つの予測地平線を比較検討した。
また、その効果をパーソナ記述のない100のベースライン予測と比較し、その効果を分離する。
主な所見は2つである。
第一に、GPT-4oとヒトの予測器は、統計的に有意だが実質的には控え目な差がある、驚くほど類似した精度のレベルを達成している。
2024-2025データのアウト・オブ・サンプル評価は、GPT-4oが未確認イベントの競合予測性能を維持できることを示すが、イン・サンプル期間に比較すると顕著な差がある。
第2に,私たちのアブレーション実験では,ペルソナ記述から測定可能な予測上の優位性を示さず,精度を犠牲にすることなく計算コストを削減できることを示す。
以上の結果から,GPT-4oは,適切な文脈データを提供していれば,外部のマクロ経済イベントにおいても,競合予測精度を達成できることを示すとともに,多種多様なプロンプトが人体パネルに比べて極めて均一な予測を生成できることが示唆された。
関連論文リスト
- Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Hybrid Forecasting of Geopolitical Events [71.73737011120103]
SAGEは、人間と機械が生成した予測を組み合わせたハイブリッド予測システムである。
このシステムは、確率と評価されたスキルに基づいて、人間と機械の予測の重み付けを集約する。
機械による予測にアクセスできる熟練した予測者は、過去のデータしか見ていない者よりも優れていた。
論文 参考訳(メタデータ) (2024-12-14T22:09:45Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy [1.999925939110439]
我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。
両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
論文 参考訳(メタデータ) (2024-02-29T17:27:59Z) - Large Language Model Prediction Capabilities: Evidence from a Real-World
Forecasting Tournament [2.900810893770134]
我々は,OpenAIの最先端の大規模言語モデルであるGPT-4を,Metaculusプラットフォーム上で開催される3ヶ月の予測トーナメントに登録する。
GPT-4の確率予測は人混みの中央値よりもかなり精度が低いことを示す。
この過小評価の潜在的な説明は、現実の予測トーナメントでは、真の答えが予測された時点で真に未知であるということである。
論文 参考訳(メタデータ) (2023-10-17T17:58:17Z) - A generative adversarial network approach to (ensemble) weather
prediction [91.3755431537592]
本研究では,500hPaの圧力レベル,2m温度,24時間の総降水量を予測するために,条件付き深部畳み込み生成対向ネットワークを用いた。
提案されたモデルは、2019年に関連する気象分野を予測することを目的として、2015年から2018年までの4年間のERA5の再分析データに基づいて訓練されている。
論文 参考訳(メタデータ) (2020-06-13T20:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。