論文の概要: The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification
- arxiv url: http://arxiv.org/abs/2512.12059v1
- Date: Fri, 12 Dec 2025 21:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.086879
- Title: The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification
- Title(参考訳): The Forecast Critic: 貧弱な予測識別のための大規模言語モデルを活用する
- Authors: Luke Bhan, Hanyu Zhang, Andrew Gordon Wilson, Michael W. Mahoney, Chuck Arvin,
- Abstract要約: 本稿では,Large Language Models (LLM) を利用した予測自動監視システムであるThe Forecast Criticを提案する。
LLMの時系列予測品質を評価する能力を評価する。
合成および実世界の予測データを含む3つの実験を行った。
- 参考スコア(独自算出の注目度): 74.64864354503204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monitoring forecasting systems is critical for customer satisfaction, profitability, and operational efficiency in large-scale retail businesses. We propose The Forecast Critic, a system that leverages Large Language Models (LLMs) for automated forecast monitoring, taking advantage of their broad world knowledge and strong ``reasoning'' capabilities. As a prerequisite for this, we systematically evaluate the ability of LLMs to assess time series forecast quality, focusing on three key questions. (1) Can LLMs be deployed to perform forecast monitoring and identify obviously unreasonable forecasts? (2) Can LLMs effectively incorporate unstructured exogenous features to assess what a reasonable forecast looks like? (3) How does performance vary across model sizes and reasoning capabilities, measured across state-of-the-art LLMs? We present three experiments, including on both synthetic and real-world forecasting data. Our results show that LLMs can reliably detect and critique poor forecasts, such as those plagued by temporal misalignment, trend inconsistencies, and spike errors. The best-performing model we evaluated achieves an F1 score of 0.88, somewhat below human-level performance (F1 score: 0.97). We also demonstrate that multi-modal LLMs can effectively incorporate unstructured contextual signals to refine their assessment of the forecast. Models correctly identify missing or spurious promotional spikes when provided with historical context about past promotions (F1 score: 0.84). Lastly, we demonstrate that these techniques succeed in identifying inaccurate forecasts on the real-world M5 time series dataset, with unreasonable forecasts having an sCRPS at least 10% higher than that of reasonable forecasts. These findings suggest that LLMs, even without domain-specific fine-tuning, may provide a viable and scalable option for automated forecast monitoring and evaluation.
- Abstract(参考訳): 予測システムのモニタリングは、大規模小売業における顧客満足度、収益性、運用効率にとって重要である。
本稿では,大規模言語モデル(LLM)を利用した予測自動監視システムであるThe Forecast Criticを提案する。
本研究の前提条件として,3つの重要な疑問に焦点をあて,時系列予測品質を評価するLLMの能力を体系的に評価する。
1 LLMは、予測監視を行い、明らかに不合理な予測を特定できるか。
2) LLM は非構造外生的特徴を効果的に取り入れて合理的な予測がどのようなものかを評価することができるか。
(3) 現状のLLMで測定されたモデルサイズや推論能力によって,パフォーマンスはどのように変化するのか?
合成および実世界の予測データを含む3つの実験を行った。
以上の結果から,LLMは時間的不一致や傾向の不整合,スパイクエラーなど,不適切な予測を確実に検出・批判することが可能であることが示唆された。
評価した最高のパフォーマンスモデルは、人間レベルのパフォーマンス(F1スコア:0.97)よりやや低いF1スコア(0.88)を達成する。
また,マルチモーダルLLMは,非構造化の文脈信号を効果的に組み込んで予測の精度を高めることができることを示した。
過去の昇進に関する歴史的文脈が与えられた場合、モデルは行方不明または急激なプロモーションスパイクを正しく識別する(F1スコア:0.84)。
最後に、これらの手法が実世界のM5時系列データセット上で不正確な予測を識別するのに成功し、合理的な予測よりも少なくとも10%高いsCRPSを持つ不合理な予測が可能であることを示す。
これらの結果から, LLMは, ドメイン固有の微調整がなくても, 自動予測監視と評価に有効かつスケーラブルな選択肢を提供する可能性が示唆された。
関連論文リスト
- Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs [57.82819770709032]
大規模言語モデル (LLM) は、na "ive direct prompting" を通じて効果的な文脈支援予測を行うことができる。
ReDPは、明確な推論トレースを抽出することで、解釈可能性を改善し、コンテキスト上でモデルの推論を評価することができる。
CorDPはLLMを活用して、既存の予測をコンテキストで洗練し、現実の予測パイプラインにおける適用性を高める。
IC-DPは、文脈支援予測タスクの歴史的例を即時に組み込むことを提案し、大規模モデルにおいても精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-13T16:02:55Z) - Revisiting LLMs as Zero-Shot Time-Series Forecasters: Small Noise Can Break Large Models [32.30528039193554]
大規模言語モデル(LLM)は、ドメイン固有のトレーニングなしで、様々なタスクにまたがる顕著なパフォーマンスを示している。
近年の研究では、LLMは予測に固有の効果を欠いていることが示唆されている。
実験の結果,LLMベースのゼロショット予測器はノイズに敏感なため,高い精度を達成するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-31T08:24:01Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
論文 参考訳(メタデータ) (2024-06-06T19:01:42Z) - Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy [1.999925939110439]
我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。
両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
論文 参考訳(メタデータ) (2024-02-29T17:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。