論文の概要: AIA Forecaster: Technical Report
- arxiv url: http://arxiv.org/abs/2511.07678v1
- Date: Wed, 12 Nov 2025 01:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.422865
- Title: AIA Forecaster: Technical Report
- Title(参考訳): AIAフォアキャスター:技術報告
- Authors: Rohan Alur, Bradly C. Stadie, Daniel Kang, Ryan Chen, Matt McManus, Michael Rickert, Tyler Lee, Michael Federici, Richard Zhu, Dennis Fogerty, Hayley Williamson, Nina Lozinski, Aaron Linsky, Jasjeet S. Sekhon,
- Abstract要約: この技術報告では、非構造化データを用いた判断予測のための大規模言語モデルに基づくシステムであるAIA Forecasterについて述べる。
AIA Forecasterアプローチは、高品質なニュースソースに対するエージェントサーチ、同じイベントの異なる予測を精査するスーパーバイザー、大規模言語モデルにおける行動バイアスに対処する統計キャリブレーション手法の3つの基本要素を組み合わせる。
- 参考スコア(独自算出の注目度): 8.912103416434531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report describes the AIA Forecaster, a Large Language Model (LLM)-based system for judgmental forecasting using unstructured data. The AIA Forecaster approach combines three core elements: agentic search over high-quality news sources, a supervisor agent that reconciles disparate forecasts for the same event, and a set of statistical calibration techniques to counter behavioral biases in large language models. On the ForecastBench benchmark (Karger et al., 2024), the AIA Forecaster achieves performance equal to human superforecasters, surpassing prior LLM baselines. In addition to reporting on ForecastBench, we also introduce a more challenging forecasting benchmark sourced from liquid prediction markets. While the AIA Forecaster underperforms market consensus on this benchmark, an ensemble combining AIA Forecaster with market consensus outperforms consensus alone, demonstrating that our forecaster provides additive information. Our work establishes a new state of the art in AI forecasting and provides practical, transferable recommendations for future research. To the best of our knowledge, this is the first work that verifiably achieves expert-level forecasting at scale.
- Abstract(参考訳): 本稿では,非構造化データを用いた判断予測のための大規模言語モデル(LLM)に基づくAIA Forecasterについて述べる。
AIA Forecasterアプローチは、高品質なニュースソースに対するエージェントサーチ、同じイベントの異なる予測を精査するスーパーバイザー、大規模言語モデルにおける行動バイアスに対処する統計キャリブレーション手法の3つの基本要素を組み合わせる。
ForecastBenchベンチマーク(Karger et al , 2024)では、AIA Forecasterは人間のスーパーフォアキャスターに匹敵する性能を達成し、以前のLCMベースラインを上回った。
ForecastBenchのレポートに加えて、液体予測市場から得られたより困難な予測ベンチマークも紹介する。
AIA Forecasterは、このベンチマークで市場コンセンサスよりも優れていますが、AIA Forecasterと市場コンセンサスを組み合わせたアンサンブルは、コンセンサスよりも優れています。
我々の研究は、AI予測における新たな最先端を確立し、将来の研究に実用的な、移行可能なレコメンデーションを提供する。
私たちの知る限りでは、これは大規模な専門家レベルの予測を確実に達成した最初の作品です。
関連論文リスト
- Hybrid Forecasting of Geopolitical Events [71.73737011120103]
SAGEは、人間と機械が生成した予測を組み合わせたハイブリッド予測システムである。
このシステムは、確率と評価されたスキルに基づいて、人間と機械の予測の重み付けを集約する。
機械による予測にアクセスできる熟練した予測者は、過去のデータしか見ていない者よりも優れていた。
論文 参考訳(メタデータ) (2024-12-14T22:09:45Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Forecasting with Deep Learning: Beyond Average of Average of Average Performance [0.393259574660092]
予測モデルの評価と比較の現在のプラクティスは、パフォーマンスを1つのスコアにまとめることに集中しています。
複数の視点からモデルを評価するための新しいフレームワークを提案する。
このフレームワークの利点は、最先端のディープラーニングアプローチと古典的な予測手法を比較して示す。
論文 参考訳(メタデータ) (2024-06-24T12:28:22Z) - F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。
タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。
従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文 参考訳(メタデータ) (2024-06-23T21:28:50Z) - Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。
本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文 参考訳(メタデータ) (2024-02-28T18:54:18Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Beyond S-curves: Recurrent Neural Networks for Technology Forecasting [60.82125150951035]
我々は機械学習と時系列予測の最近の進歩を生かしたオートコーダアプローチを開発した。
S曲線予測は、単純なARIMAベースラインに匹敵する平均パーセンテージ誤差(MAPE)を示す。
我々のオートエンコーダアプローチは、2番目に高い結果に対して平均13.5%改善する。
論文 参考訳(メタデータ) (2022-11-28T14:16:22Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Profit-oriented sales forecasting: a comparison of forecasting
techniques from a business perspective [3.613072342189595]
本稿では,コカ・コーラ社の産業界データと公開データセットの両方から成る35回連続のテクニックを比較検討する。
モデル構築と評価プロセスの両方において、テクニックが生成できる期待される利益を考慮に入れた、新しく完全に自動化された利益主導のアプローチを導入します。
論文 参考訳(メタデータ) (2020-02-03T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。