論文の概要: Can Language Models Use Forecasting Strategies?
- arxiv url: http://arxiv.org/abs/2406.04446v1
- Date: Thu, 6 Jun 2024 19:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:17:07.905850
- Title: Can Language Models Use Forecasting Strategies?
- Title(参考訳): 言語モデルは予測戦略を使えるか?
- Authors: Sarah Pratt, Seth Blumberg, Pietro Kreitlon Carolino, Meredith Ringel Morris,
- Abstract要約: 実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
- 参考スコア(独自算出の注目度): 14.332379032371612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in deep learning systems have allowed large models to match or surpass human accuracy on a number of skills such as image classification, basic programming, and standardized test taking. As the performance of the most capable models begin to saturate on tasks where humans already achieve high accuracy, it becomes necessary to benchmark models on increasingly complex abilities. One such task is forecasting the future outcome of events. In this work we describe experiments using a novel dataset of real world events and associated human predictions, an evaluation metric to measure forecasting ability, and the accuracy of a number of different LLM based forecasting designs on the provided dataset. Additionally, we analyze the performance of the LLM forecasters against human predictions and find that models still struggle to make accurate predictions about the future. Our follow-up experiments indicate this is likely due to models' tendency to guess that most events are unlikely to occur (which tends to be true for many prediction datasets, but does not reflect actual forecasting abilities). We reflect on next steps for developing a systematic and reliable approach to studying LLM forecasting.
- Abstract(参考訳): ディープラーニングシステムの進歩により、画像分類、基本プログラミング、標準化されたテストテイクなど、多数のスキルにおいて、大規模なモデルが人間の精度にマッチしたり、超えたりすることが可能になった。
最も有能なモデルの性能が、人間が既に高い精度で達成しているタスクで飽和し始めるにつれ、ますます複雑な能力のモデルをベンチマークする必要がある。
そのようなタスクの1つは、イベントの将来の結果を予測することです。
本研究では,実世界の事象と関連する人的予測の新たなデータセットを用いた実験,予測能力を評価するための評価指標,提案したデータセット上での複数のLSMに基づく予測設計の精度について述べる。
さらに,LLM予測器の性能を人間の予測に対して解析し,モデルが今後も正確な予測を行うのに苦慮していることを確認した。
我々の追跡実験は、ほとんどの事象が起こらない(多くの予測データセットに当てはまる傾向にあるが、実際の予測能力は反映していない)と推測するモデルの傾向が原因であることを示している。
我々は,LLM予測の体系的かつ信頼性の高い手法を開発するための次のステップについて考察する。
関連論文リスト
- Navigating Tomorrow: Reliably Assessing Large Language Models Performance on Future Event Prediction [17.021220773165016]
本研究では,将来の予測タスクを支援するために,複数の大規模言語モデル(LLM)の性能を評価する。
我々は、エンティティタイプとその人気に基づいてニュース記事を発見し分類することで、データセット1を作成する。
論文 参考訳(メタデータ) (2025-01-10T12:44:46Z) - Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - Future-Guided Learning: A Predictive Approach To Enhance Time-Series Forecasting [4.866362841501992]
本稿では,予測符号化にインスパイアされた動的フィードバック機構を通じて時系列イベント予測を強化するアプローチであるFuture-Guided Learningを紹介する。
本手法は2つのモデルから構成される: 重要事象を識別するために将来のデータを解析する検出モデルと、これらの事象を現在のデータに基づいて予測する予測モデルである。
脳波データを用いた発作予測ではAUC-ROCが44.8%増加し,非線形力学系ではMSEが48.7%減少した。
論文 参考訳(メタデータ) (2024-10-19T21:22:55Z) - F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。
タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。
従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文 参考訳(メタデータ) (2024-06-23T21:28:50Z) - Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。
本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文 参考訳(メタデータ) (2024-02-28T18:54:18Z) - On some limitations of data-driven weather forecasting models [0.0]
本稿では,現在のMLモデルの先駆者であるPangu-Weather氏の予測のいくつかの側面について検討する。
主な結論は、Pangu-Weather予測と、おそらく同様のMLモデルの予測は、物理ベースのモデルの忠実性と物理的整合性を持っていないということである。
論文 参考訳(メタデータ) (2023-09-15T15:21:57Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Learning Accurate Long-term Dynamics for Model-based Reinforcement
Learning [7.194382512848327]
より長い地平線で安定的に予測するために, 状態作用データに対する教師付き学習のための新しいパラメータ化を提案する。
シミュレーションおよび実験によるロボット作業の結果,軌道に基づくモデルにより,より正確な長期予測が得られた。
論文 参考訳(メタデータ) (2020-12-16T18:47:37Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。