論文の概要: Large Language Model Prediction Capabilities: Evidence from a Real-World
Forecasting Tournament
- arxiv url: http://arxiv.org/abs/2310.13014v1
- Date: Tue, 17 Oct 2023 17:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 16:12:18.670531
- Title: Large Language Model Prediction Capabilities: Evidence from a Real-World
Forecasting Tournament
- Title(参考訳): 大規模言語モデル予測能力:実世界の予測トーナメントからの証拠
- Authors: Philipp Schoenegger and Peter S. Park
- Abstract要約: 我々は,OpenAIの最先端の大規模言語モデルであるGPT-4を,Metaculusプラットフォーム上で開催される3ヶ月の予測トーナメントに登録する。
GPT-4の確率予測は人混みの中央値よりもかなり精度が低いことを示す。
この過小評価の潜在的な説明は、現実の予測トーナメントでは、真の答えが予測された時点で真に未知であるということである。
- 参考スコア(独自算出の注目度): 2.900810893770134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately predicting the future would be an important milestone in the
capabilities of artificial intelligence. However, research on the ability of
large language models to provide probabilistic predictions about future events
remains nascent. To empirically test this ability, we enrolled OpenAI's
state-of-the-art large language model, GPT-4, in a three-month forecasting
tournament hosted on the Metaculus platform. The tournament, running from July
to October 2023, attracted 843 participants and covered diverse topics
including Big Tech, U.S. politics, viral outbreaks, and the Ukraine conflict.
Focusing on binary forecasts, we show that GPT-4's probabilistic forecasts are
significantly less accurate than the median human-crowd forecasts. We find that
GPT-4's forecasts did not significantly differ from the no-information
forecasting strategy of assigning a 50% probability to every question. We
explore a potential explanation, that GPT-4 might be predisposed to predict
probabilities close to the midpoint of the scale, but our data do not support
this hypothesis. Overall, we find that GPT-4 significantly underperforms in
real-world predictive tasks compared to median human-crowd forecasts. A
potential explanation for this underperformance is that in real-world
forecasting tournaments, the true answers are genuinely unknown at the time of
prediction; unlike in other benchmark tasks like professional exams or time
series forecasting, where strong performance may at least partly be due to the
answers being memorized from the training data. This makes real-world
forecasting tournaments an ideal environment for testing the generalized
reasoning and prediction capabilities of artificial intelligence going forward.
- Abstract(参考訳): 未来を正確に予測することは、人工知能の能力において重要なマイルストーンとなるだろう。
しかし、将来の出来事に関する確率論的予測を提供するための大規模言語モデルの能力に関する研究は、まだ初期段階である。
この能力を実証的にテストするため,我々は,Metaculusプラットフォーム上で開催される3ヶ月の予測トーナメントで,OpenAIの最先端の大規模言語モデルであるGPT-4を登録した。
大会は2023年7月から10月にかけて行われ、843人の参加者を惹きつけ、ビッグテック、アメリカの政治、ウイルスのアウトブレイク、ウクライナ紛争など様々なトピックをカバーした。
2値予測に着目し,GPT-4の確率予測は人混みの中央値よりも有意に精度が低いことを示す。
GPT-4の予測は,全質問に対して50%の確率を割り当てる非情報予測戦略と大きくは一致しなかった。
我々は、GPT-4がスケールの中間点に近い確率を予測するために予想される可能性を探るが、我々のデータはこの仮説を支持していない。
概して,GPT-4は人混みの中央値に比べて現実の予測タスクでは著しく劣ることがわかった。
この過小評価の潜在的な説明は、現実の予測トーナメントでは、真の答えは予測の時点で真に未知であり、プロの試験や時系列予測のような他のベンチマークタスクとは異なり、強いパフォーマンスは、トレーニングデータから記憶された答えによって少なくとも部分的に生じる可能性がある。
これにより、現実の予測トーナメントは、人工知能の一般的な推論と予測能力をテストするための理想的な環境となる。
関連論文リスト
- Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
論文 参考訳(メタデータ) (2024-06-06T19:01:42Z) - Can Base ChatGPT be Used for Forecasting without Additional Optimization? [0.0]
本研究では,OpenAI の ChatGPT-3.5 と ChatGPT-4 が今後の事象を予測できるかどうかを検討する。
私たちは、直接予測と将来の物語と呼ばれる2つの促進戦略を採用しています。
100の試行を解析した結果,将来の物語はChatGPT-4の予測精度を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-11T00:03:03Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,複数のランダムサンプルを用いて予測結果の不確かさをキャプチャするExBoosterについても紹介する。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - Algorithmic Information Forecastability [0.0]
予測可能性の度合いはデータのみの機能です
常に正確である予測のオラクル予測可能性 限界までエラーの正確な予測可能性 他の予測の確率予測性
論文 参考訳(メタデータ) (2023-04-21T05:45:04Z) - FengWu: Pushing the Skillful Global Medium-range Weather Forecast beyond
10 Days Lead [93.67314652898547]
人工知能(AI)に基づく高度データ駆動型中距離気象予報システムFengWuについて紹介する。
FengWuは大気力学を正確に再現し、0.25度緯度で37の垂直レベルで将来の陸と大気の状態を予測することができる。
その結果、FengWuは予測能力を大幅に向上させ、熟練した中距離気象予報を10.75日間のリードまで拡張できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T09:16:39Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Deep Probabilistic Koopman: Long-term time-series forecasting under
periodic uncertainties [7.305019142196582]
我々は、時間変化の分布を特徴付ける驚くほど単純なアプローチを導入し、将来への数千のタイムステップを合理的に正確に予測することを可能にする。
この手法はDeep Probabilistic Koopman (DPK) と呼ばれ、線形クープマン作用素理論の最近の進歩に基づいている。
本稿では,電力需要予測,大気化学,神経科学などの領域において,これらのモデルの長期予測性能を示す。
論文 参考訳(メタデータ) (2021-06-10T20:22:41Z) - A generative adversarial network approach to (ensemble) weather
prediction [91.3755431537592]
本研究では,500hPaの圧力レベル,2m温度,24時間の総降水量を予測するために,条件付き深部畳み込み生成対向ネットワークを用いた。
提案されたモデルは、2019年に関連する気象分野を予測することを目的として、2015年から2018年までの4年間のERA5の再分析データに基づいて訓練されている。
論文 参考訳(メタデータ) (2020-06-13T20:53:17Z) - Measuring Forecasting Skill from Text [15.795144936579627]
我々は、人々が予測と予測スキルを説明するために使用する言語間の関係を探求する。
未来に関する人々の予測に関連付けられたテキスト上で計算される言語指標を多数提示する。
本研究では,言語のみに基づくモデルを用いて,予測スキルを正確に予測できることを実証する。
論文 参考訳(メタデータ) (2020-06-12T19:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。