論文の概要: Large Language Model Prediction Capabilities: Evidence from a Real-World
Forecasting Tournament
- arxiv url: http://arxiv.org/abs/2310.13014v1
- Date: Tue, 17 Oct 2023 17:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 16:12:18.670531
- Title: Large Language Model Prediction Capabilities: Evidence from a Real-World
Forecasting Tournament
- Title(参考訳): 大規模言語モデル予測能力:実世界の予測トーナメントからの証拠
- Authors: Philipp Schoenegger and Peter S. Park
- Abstract要約: 我々は,OpenAIの最先端の大規模言語モデルであるGPT-4を,Metaculusプラットフォーム上で開催される3ヶ月の予測トーナメントに登録する。
GPT-4の確率予測は人混みの中央値よりもかなり精度が低いことを示す。
この過小評価の潜在的な説明は、現実の予測トーナメントでは、真の答えが予測された時点で真に未知であるということである。
- 参考スコア(独自算出の注目度): 2.900810893770134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately predicting the future would be an important milestone in the
capabilities of artificial intelligence. However, research on the ability of
large language models to provide probabilistic predictions about future events
remains nascent. To empirically test this ability, we enrolled OpenAI's
state-of-the-art large language model, GPT-4, in a three-month forecasting
tournament hosted on the Metaculus platform. The tournament, running from July
to October 2023, attracted 843 participants and covered diverse topics
including Big Tech, U.S. politics, viral outbreaks, and the Ukraine conflict.
Focusing on binary forecasts, we show that GPT-4's probabilistic forecasts are
significantly less accurate than the median human-crowd forecasts. We find that
GPT-4's forecasts did not significantly differ from the no-information
forecasting strategy of assigning a 50% probability to every question. We
explore a potential explanation, that GPT-4 might be predisposed to predict
probabilities close to the midpoint of the scale, but our data do not support
this hypothesis. Overall, we find that GPT-4 significantly underperforms in
real-world predictive tasks compared to median human-crowd forecasts. A
potential explanation for this underperformance is that in real-world
forecasting tournaments, the true answers are genuinely unknown at the time of
prediction; unlike in other benchmark tasks like professional exams or time
series forecasting, where strong performance may at least partly be due to the
answers being memorized from the training data. This makes real-world
forecasting tournaments an ideal environment for testing the generalized
reasoning and prediction capabilities of artificial intelligence going forward.
- Abstract(参考訳): 未来を正確に予測することは、人工知能の能力において重要なマイルストーンとなるだろう。
しかし、将来の出来事に関する確率論的予測を提供するための大規模言語モデルの能力に関する研究は、まだ初期段階である。
この能力を実証的にテストするため,我々は,Metaculusプラットフォーム上で開催される3ヶ月の予測トーナメントで,OpenAIの最先端の大規模言語モデルであるGPT-4を登録した。
大会は2023年7月から10月にかけて行われ、843人の参加者を惹きつけ、ビッグテック、アメリカの政治、ウイルスのアウトブレイク、ウクライナ紛争など様々なトピックをカバーした。
2値予測に着目し,GPT-4の確率予測は人混みの中央値よりも有意に精度が低いことを示す。
GPT-4の予測は,全質問に対して50%の確率を割り当てる非情報予測戦略と大きくは一致しなかった。
我々は、GPT-4がスケールの中間点に近い確率を予測するために予想される可能性を探るが、我々のデータはこの仮説を支持していない。
概して,GPT-4は人混みの中央値に比べて現実の予測タスクでは著しく劣ることがわかった。
この過小評価の潜在的な説明は、現実の予測トーナメントでは、真の答えは予測の時点で真に未知であり、プロの試験や時系列予測のような他のベンチマークタスクとは異なり、強いパフォーマンスは、トレーニングデータから記憶された答えによって少なくとも部分的に生じる可能性がある。
これにより、現実の予測トーナメントは、人工知能の一般的な推論と予測能力をテストするための理想的な環境となる。
関連論文リスト
- Wisdom of the Crowds in Forecasting: Forecast Summarization for Supporting Future Event Prediction [17.021220773165016]
Future Event Prediction (FEP) は、複数のドメインにまたがる需要とアプリケーションの範囲にまたがる重要なアクティビティである。
予測方法の1つは、将来についての集合的な意見を収集して集約し、累積的な視点が今後の出来事の可能性を推定する可能性をもたらすように予測することである。
本研究では,個々の予測を集約することで,群衆の知恵に基づく今後のイベント予測を支援するために,既存の研究・フレームワークを編成する。
論文 参考訳(メタデータ) (2025-02-12T08:35:10Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Hybrid Forecasting of Geopolitical Events [71.73737011120103]
SAGEは、人間と機械が生成した予測を組み合わせたハイブリッド予測システムである。
このシステムは、確率と評価されたスキルに基づいて、人間と機械の予測の重み付けを集約する。
機械による予測にアクセスできる熟練した予測者は、過去のデータしか見ていない者よりも優れていた。
論文 参考訳(メタデータ) (2024-12-14T22:09:45Z) - Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
論文 参考訳(メタデータ) (2024-06-06T19:01:42Z) - Can Base ChatGPT be Used for Forecasting without Additional Optimization? [0.0]
本研究では,OpenAI の ChatGPT-3.5 と ChatGPT-4 が今後の事象を予測できるかどうかを検討する。
私たちは、直接予測と将来の物語と呼ばれる2つの促進戦略を採用しています。
100の試行を解析した結果,将来の物語はChatGPT-4の予測精度を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-11T00:03:03Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,複数のランダムサンプルを用いて予測結果の不確かさをキャプチャするExBoosterについても紹介する。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - Algorithmic Information Forecastability [0.0]
予測可能性の度合いはデータのみの機能です
常に正確である予測のオラクル予測可能性 限界までエラーの正確な予測可能性 他の予測の確率予測性
論文 参考訳(メタデータ) (2023-04-21T05:45:04Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - A generative adversarial network approach to (ensemble) weather
prediction [91.3755431537592]
本研究では,500hPaの圧力レベル,2m温度,24時間の総降水量を予測するために,条件付き深部畳み込み生成対向ネットワークを用いた。
提案されたモデルは、2019年に関連する気象分野を予測することを目的として、2015年から2018年までの4年間のERA5の再分析データに基づいて訓練されている。
論文 参考訳(メタデータ) (2020-06-13T20:53:17Z) - Measuring Forecasting Skill from Text [15.795144936579627]
我々は、人々が予測と予測スキルを説明するために使用する言語間の関係を探求する。
未来に関する人々の予測に関連付けられたテキスト上で計算される言語指標を多数提示する。
本研究では,言語のみに基づくモデルを用いて,予測スキルを正確に予測できることを実証する。
論文 参考訳(メタデータ) (2020-06-12T19:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。