論文の概要: Consistency Checks for Language Model Forecasters
- arxiv url: http://arxiv.org/abs/2412.18544v1
- Date: Tue, 24 Dec 2024 16:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:57:03.173974
- Title: Consistency Checks for Language Model Forecasters
- Title(参考訳): 言語モデル予測器の一貫性チェック
- Authors: Daniel Paleka, Abhimanyu Pallavi Sudhir, Alejandro Alvarez, Vineeth Bhat, Adam Shen, Evan Wang, Florian Tramèr,
- Abstract要約: 予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
- 参考スコア(独自算出の注目度): 54.62507816753479
- License:
- Abstract: Forecasting is a task that is difficult to evaluate: the ground truth can only be known in the future. Recent work showing LLM forecasters rapidly approaching human-level performance begs the question: how can we benchmark and evaluate these forecasters instantaneously? Following the consistency check framework, we measure the performance of forecasters in terms of the consistency of their predictions on different logically-related questions. We propose a new, general consistency metric based on arbitrage: for example, if a forecasting AI illogically predicts that both the Democratic and Republican parties have 60% probability of winning the 2024 US presidential election, an arbitrageur can trade against the forecaster's predictions and make a profit. We build an automated evaluation system that generates a set of base questions, instantiates consistency checks from these questions, elicits the predictions of the forecaster, and measures the consistency of the predictions. We then build a standard, proper-scoring-rule forecasting benchmark, and show that our (instantaneous) consistency metrics correlate with LLM forecasters' ground truth Brier scores (which are only known in the future). We also release a consistency benchmark that resolves in 2028, providing a long-term evaluation tool for forecasting.
- Abstract(参考訳): 予測は評価が難しいタスクであり、根底にある真実は将来のみ知ることができる。
LLM予測器が急速に人間レベルの性能に近づいていることを示す最近の研究は、どのようにしてこれらの予測器を瞬時にベンチマークし評価できるかという疑問を提起している。
整合性チェックの枠組みに従って,様々な論理的質問に対する予測の整合性の観点から,予測器の性能を測定した。
例えば、予測AIが非論理的に民主党と共和党の両方が2024年のアメリカ合衆国大統領選挙に勝つ確率を60%と予測した場合、仲裁員は予測者の予測に反して取引を行い、利益を得ることができる。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
次に、標準的な適切なスコアリングルール予測ベンチマークを構築し、我々の(即時)一貫性の指標が、LLM予測者の基底真実(将来のみ知られている)と相関していることを示す。
また、2028年に解決する一貫性ベンチマークをリリースし、予測のための長期的な評価ツールを提供しています。
関連論文リスト
- ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities [5.029476863820779]
ForecastBenchは、機械学習システムの精度を評価するためのベンチマークである。
ForecastBenchは、提出時に既知の回答がない将来のイベントに関する質問のみで構成されている。
私たちはwww.forecastbench.orgの公開リーダーボードにシステムと人間のスコアを表示します。
論文 参考訳(メタデータ) (2024-09-30T00:41:51Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。
本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文 参考訳(メタデータ) (2024-02-28T18:54:18Z) - When Rigidity Hurts: Soft Consistency Regularization for Probabilistic
Hierarchical Time Series Forecasting [69.30930115236228]
確率的階層的時系列予測は時系列予測の重要な変種である。
ほとんどの手法は点予測に焦点を絞っており、確率的確率分布を十分に調整していない。
ProFHiTは,階層全体の予測分布を共同でモデル化する完全確率的階層予測モデルである。
論文 参考訳(メタデータ) (2023-10-17T20:30:16Z) - Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:13:16Z) - Regions of Reliability in the Evaluation of Multivariate Probabilistic
Forecasts [73.33395097728128]
時系列予測評価のための適切なスコアリングルールに関する最初の体系的な有限サンプル研究を提供する。
本研究では, 地中構造と予測分布のいくつかの重要な相違点をテストするために, 総合的な総合的合成ベンチマークを用いて解析を行った。
論文 参考訳(メタデータ) (2023-04-19T17:38:42Z) - Post-selection Inference for Conformal Prediction: Trading off Coverage
for Precision [0.0]
伝統的に、共形予測推論はデータに依存しない発見レベルの仕様を必要とする。
我々は,データ依存的誤発見レベルを考慮した同時共形推論を開発する。
論文 参考訳(メタデータ) (2023-04-12T20:56:43Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Evaluation of Machine Learning Techniques for Forecast Uncertainty
Quantification [0.13999481573773068]
アンサンブル予測は、これまでのところ、関連する予測を生成するための最も成功したアプローチであり、その不確実性を見積もっている。
アンサンブル予測の主な制限は、高い計算コストと異なる不確実性の源を捕捉し定量化することの難しさである。
本研究は,1つの決定論的予測のみを入力として,システムの修正状態と状態不確かさを予測するために訓練されたANNの性能を評価するための概念モデル実験である。
論文 参考訳(メタデータ) (2021-11-29T16:52:17Z) - Comparing Sequential Forecasters [35.38264087676121]
2つの予測器を考えてみましょう。それぞれが時間とともに一連のイベントを予測します。
オンラインでもポストホックでも、予測と結果がどのように生成されたかの検証不可能な仮定を避けながら、これらの予測をどのように比較すればよいのか?
予測スコアの時間差を推定するための新しい逐次推論手法を提案する。
実世界の野球と天気予報機を比較することで,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-09-30T22:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。