論文の概要: Bench to the Future: A Pastcasting Benchmark for Forecasting Agents
- arxiv url: http://arxiv.org/abs/2506.21558v1
- Date: Wed, 11 Jun 2025 16:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.265012
- Title: Bench to the Future: A Pastcasting Benchmark for Forecasting Agents
- Title(参考訳): Bench to the Future: 予測エージェントのパスキャストベンチマーク
- Authors: FutureSearch, :, Jack Wildman, Nikos I. Bosse, Daniel Hnyk, Peter Mühlbacher, Finn Hambly, Jon Evans, Dan Schwarz, Lawrence Phillips,
- Abstract要約: Bench To the Futureは、数百の高品質な質問がすでにその解決が知られている"pastcasting"ベンチマークである。
その結果,我々の過去の放送環境は,未解決の質問に対してインターネットを用いた予測に基づく結果に匹敵する結果が得られることが示唆された。
これは生きたベンチマークであり、トレーニングデータのカットオフ日数の増加を考慮し、新たな質問を継続的に追加するつもりです。
- 参考スコア(独自算出の注目度): 0.14980193397844666
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Forecasting is a challenging task that offers a clearly measurable way to study AI systems. Forecasting requires a large amount of research on the internet, and evaluations require time for events to happen, making the development of forecasting benchmarks challenging. To date, no forecasting benchmark provides a realistic, hermetic, and repeatable environment for LLM forecasters. We introduce Bench To the Future (BTF), a "pastcasting" benchmark with hundreds of high-quality questions for which the resolution is already known. Each question is accompanied by a large offline corpus of tens of thousands of relevant web pages, enabling a way to elicit realistic "forecasts" on past events from LLMs. Results suggest that our pastcasting environment can produce results comparable to those based on forecasts using the internet on at-the-time unresolved questions. We show results benchmarking agent and chain-of-thought forecasting approaches using several LLMs, including the recently-released Claude 4 models, and demonstrate BTF's ability to track steady forecasting capability progress over time. We intend this to be a living benchmark, with new questions added continually to account for increasing training data cutoff dates. We invite researchers to contact us at hello@futuresearch.ai to utilize our benchmark or tooling for their own research.
- Abstract(参考訳): 予測は、AIシステムを研究するための明らかに測定可能な方法を提供する、困難なタスクである。
予測にはインターネットに関する大量の研究が必要であり、評価にはイベントが発生するまでの時間が必要であり、予測ベンチマークの開発は困難である。
現在、予測ベンチマークは、LLM予測者にとって現実的で、悲観的で、繰り返し可能な環境を提供していない。
我々は,Bentch To the Future (BTF) という,その解決がすでに知られている高品質な数百の質問を対象とする "pastcasting" ベンチマークを紹介した。
各質問には、何万もの関連Webページの大規模なオフラインコーパスが伴い、LLMから過去のイベントに現実的な"予測"を引き出す手段を提供する。
その結果,我々の過去の放送環境は,未解決の質問に対してインターネットを用いた予測に基づく結果に匹敵する結果が得られることが示唆された。
本稿では,最近リリースされたClaude 4 モデルを含む複数の LLM モデルを用いたベンチマークエージェントと連鎖予測手法について述べる。
これは生きたベンチマークであり、トレーニングデータのカットオフ日数の増加を考慮し、新たな質問を継続的に追加するつもりです。
hello@futuresearch.aiでは、ベンチマークやツールを独自の研究に活用するよう、研究者に呼びかけています。
関連論文リスト
- Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities [5.029476863820779]
ForecastBenchは、機械学習システムの精度を評価するためのベンチマークである。
ForecastBenchは、提出時に既知の回答がない将来のイベントに関する質問のみで構成されている。
私たちはwww.forecastbench.orgの公開リーダーボードにシステムと人間のスコアを表示します。
論文 参考訳(メタデータ) (2024-09-30T00:41:51Z) - F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。
タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。
従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文 参考訳(メタデータ) (2024-06-23T21:28:50Z) - Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:13:16Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。