論文の概要: Automating Forecasting Question Generation and Resolution for AI Evaluation
- arxiv url: http://arxiv.org/abs/2601.22444v1
- Date: Fri, 30 Jan 2026 01:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.146557
- Title: Automating Forecasting Question Generation and Resolution for AI Evaluation
- Title(参考訳): AI評価のための予測質問生成と解決の自動化
- Authors: Nikos I. Bosse, Peter Mühlbacher, Jack Wildman, Lawrence Phillips, Dan Schwarz,
- Abstract要約: 本稿では,高品質な予測質問を自動的かつ大規模に生成・解決するシステムを提案する。
このシステムを使って1499の多様な実世界の予測質問を生成し、数ヶ月後に解決します。
我々は,メタキュラスの速度を超える確率で約96%の確率で検証可能な不明瞭な質問を生成すると見積もっている。
- 参考スコア(独自算出の注目度): 7.5031292927519395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting future events is highly valuable in decision-making and is a robust measure of general intelligence. As forecasting is probabilistic, developing and evaluating AI forecasters requires generating large numbers of diverse and difficult questions, and accurately resolving them. Previous efforts to automate this laborious work relied on recurring data sources (e.g., weather, stocks), limiting diversity and utility. In this work, we present a system for generating and resolving high-quality forecasting questions automatically and at scale using LLM-powered web research agents. We use this system to generate 1499 diverse, real-world forecasting questions, and to resolve them several months later. We estimate that our system produces verifiable, unambiguous questions approximately 96% of the time, exceeding the rate of Metaculus, a leading human-curated forecasting platform. We also find that our system resolves questions at approximately 95% accuracy. We verify that forecasting agents powered by more intelligent LLMs perform better on these questions (Brier score of 0.134 for Gemini 3 Pro, 0.149 for GPT-5, and 0.179 for Gemini 2.5 Flash). Finally, we demonstrate how our system can be leveraged to directly improve forecasting, by evaluating a question decomposition strategy on a generated question set, yielding a significant improvement in Brier scores (0.132 vs. 0.141).
- Abstract(参考訳): 将来の出来事を予測することは意思決定において非常に貴重であり、一般知能の強固な尺度である。
予測は確率的であるため、AI予測器の開発と評価には、多種多様な難解な質問を大量に生成し、それらを正確に解決する必要がある。
これまでの努力は、データソースの繰り返し(天気、在庫など)に依存していたため、多様性や実用性は制限されていた。
本研究では,LLMを用いたWebリサーチエージェントを用いて,高品質な予測質問の自動生成と解決を行うシステムを提案する。
このシステムを使って1499の多様な実世界の予測質問を生成し、数ヶ月後に解決します。
我々は,人間の予測プラットフォームであるMetaculusよりも高い確率で,その約96%の確率で検証可能な不明瞭な質問を生成すると見積もっている。
また,約95%の精度で解答できることがわかった。
我々は,よりインテリジェントなLCMを用いた予測エージェントが,これらの質問に対してより優れていることを検証した(Gemini 3 Proの0.134点,GPT-5の0.149点,Gemini 2.5 Flashの0.179点)。
最後に,生成した質問セット上で質問分解戦略を評価した結果,Brierスコア(0.132 vs. 0.141)の大幅な改善が得られた。
関連論文リスト
- Scaling Open-Ended Reasoning to Predict the Future [56.672065928345525]
我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。
トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。
トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
論文 参考訳(メタデータ) (2025-12-31T18:59:51Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Hybrid Forecasting of Geopolitical Events [71.73737011120103]
SAGEは、人間と機械が生成した予測を組み合わせたハイブリッド予測システムである。
このシステムは、確率と評価されたスキルに基づいて、人間と機械の予測の重み付けを集約する。
機械による予測にアクセスできる熟練した予測者は、過去のデータしか見ていない者よりも優れていた。
論文 参考訳(メタデータ) (2024-12-14T22:09:45Z) - ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities [5.029476863820779]
ForecastBenchは、機械学習システムの精度を評価するためのベンチマークである。
ForecastBenchは、提出時に既知の回答がない将来のイベントに関する質問のみで構成されている。
私たちはwww.forecastbench.orgの公開リーダーボードにシステムと人間のスコアを表示します。
論文 参考訳(メタデータ) (2024-09-30T00:41:51Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。