論文の概要: ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities
- arxiv url: http://arxiv.org/abs/2409.19839v1
- Date: Mon, 30 Sep 2024 00:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:45.634013
- Title: ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities
- Title(参考訳): ForecastBench: AI予測機能の動的ベンチマーク
- Authors: Ezra Karger, Houtan Bastani, Chen Yueh-Han, Zachary Jacobs, Danny Halawi, Fred Zhang, Philip E. Tetlock,
- Abstract要約: ForecastBenchは、機械学習システムの精度を評価するためのベンチマークである。
ForecastBenchは、提出時に既知の回答がない将来のイベントに関する質問のみで構成されている。
私たちはwww.forecastbench.orgの公開リーダーボードにシステムと人間のスコアを表示します。
- 参考スコア(独自算出の注目度): 5.029476863820779
- License:
- Abstract: Forecasts of future events are essential inputs into informed decision-making. Machine learning (ML) systems have the potential to deliver forecasts at scale, but there is no framework for evaluating the accuracy of ML systems on a standardized set of forecasting questions. To address this gap, we introduce ForecastBench: a dynamic benchmark that evaluates the accuracy of ML systems on an automatically generated and regularly updated set of 1,000 forecasting questions. To avoid any possibility of data leakage, ForecastBench is comprised solely of questions about future events that have no known answer at the time of submission. We quantify the ability of current ML systems by collecting forecasts from expert (human) forecasters, the general public, and LLMs on a random subset of questions from the benchmark (N = 200). While LLMs have achieved super-human performance on many benchmarks, they perform less well here: expert forecasters outperform the top-performing LLM (p-values <= 0.01). We display system and human scores in a public leaderboard at www.forecastbench.org.
- Abstract(参考訳): 将来の出来事の予測は、情報的意思決定に不可欠なインプットである。
機械学習(ML)システムは、大規模に予測を配信する可能性があるが、標準化された予測質問セットに基づいて、MLシステムの正確性を評価するためのフレームワークはない。
このギャップに対処するため、ForecastBenchは、自動生成および定期更新された1000の予測質問セット上で、MLシステムの精度を評価する動的ベンチマークである。
データ漏洩の可能性を避けるため、ForecastBenchは、提出時に既知の回答がない将来のイベントに関する質問のみで構成されている。
ベンチマーク(N=200)から,専門家(人間)の予測者,一般人,LLMからの予測をランダムなサブセットで収集することにより,現在のMLシステムの能力の定量化を行う。
LLMは、多くのベンチマークで超人的性能を達成したが、ここでは、専門家予測器が最高性能のLSM(p-values <= 0.01)を上回っている。
私たちはwww.forecastbench.orgの公開リーダーボードにシステムと人間のスコアを表示します。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
論文 参考訳(メタデータ) (2024-06-06T19:01:42Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。
本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文 参考訳(メタデータ) (2024-02-28T18:54:18Z) - Monitoring Machine Learning Forecasts for Platform Data Streams [2.474754293747645]
デジタルプラットフォームは、突然のパフォーマンス低下に対応するために、大規模な予測フレームワークを必要とします。
本稿では,MLアルゴリズムを再トレーニングする際の問題に答えるために,データ駆動型モニタリング手法を提案する。
モニタベースのリトレーニングは、実行可能なベンチマークと比較して正確な予測を生成する。
論文 参考訳(メタデータ) (2024-01-17T11:37:38Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z) - Uncertainty Prediction for Machine Learning Models of Material
Properties [0.0]
物質特性のAIベースの予測の不確実性は、物質科学におけるAIアプリケーションの成功と信頼性にとって非常に重要である。
このような個人的不確実性を得るための3つの異なるアプローチを比較し、それらを12のML物理特性で検証する。
論文 参考訳(メタデータ) (2021-07-16T16:33:55Z) - MLDemon: Deployment Monitoring for Machine Learning Systems [10.074466859579571]
ML Deployment Monitoritoring のための新しいアプローチ MLDemon を提案します。
MLDemonはラベル付けされていない機能と少数のオンデマンドラベル付きサンプルを統合して、リアルタイムの見積を生成する。
多様な分布のドリフトとモデルを持つ時間データセットでは、MLDemonは既存のモニタリングアプローチを大幅に上回っている。
論文 参考訳(メタデータ) (2021-04-28T07:59:10Z) - AutoCP: Automated Pipelines for Accurate Prediction Intervals [84.16181066107984]
本稿では、自動予測のための自動機械学習(Automatic Machine Learning for Conformal Prediction, AutoCP)というAutoMLフレームワークを提案する。
最高の予測モデルを選択しようとする慣れ親しんだAutoMLフレームワークとは異なり、AutoCPは、ユーザが指定したターゲットカバレッジ率を達成する予測間隔を構築する。
さまざまなデータセットでAutoCPをテストしたところ、ベンチマークアルゴリズムを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-24T23:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。