論文の概要: Can Language Models Use Forecasting Strategies?
- arxiv url: http://arxiv.org/abs/2406.04446v1
- Date: Thu, 6 Jun 2024 19:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:17:07.905850
- Title: Can Language Models Use Forecasting Strategies?
- Title(参考訳): 言語モデルは予測戦略を使えるか?
- Authors: Sarah Pratt, Seth Blumberg, Pietro Kreitlon Carolino, Meredith Ringel Morris,
- Abstract要約: 実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
- 参考スコア(独自算出の注目度): 14.332379032371612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in deep learning systems have allowed large models to match or surpass human accuracy on a number of skills such as image classification, basic programming, and standardized test taking. As the performance of the most capable models begin to saturate on tasks where humans already achieve high accuracy, it becomes necessary to benchmark models on increasingly complex abilities. One such task is forecasting the future outcome of events. In this work we describe experiments using a novel dataset of real world events and associated human predictions, an evaluation metric to measure forecasting ability, and the accuracy of a number of different LLM based forecasting designs on the provided dataset. Additionally, we analyze the performance of the LLM forecasters against human predictions and find that models still struggle to make accurate predictions about the future. Our follow-up experiments indicate this is likely due to models' tendency to guess that most events are unlikely to occur (which tends to be true for many prediction datasets, but does not reflect actual forecasting abilities). We reflect on next steps for developing a systematic and reliable approach to studying LLM forecasting.
- Abstract(参考訳): ディープラーニングシステムの進歩により、画像分類、基本プログラミング、標準化されたテストテイクなど、多数のスキルにおいて、大規模なモデルが人間の精度にマッチしたり、超えたりすることが可能になった。
最も有能なモデルの性能が、人間が既に高い精度で達成しているタスクで飽和し始めるにつれ、ますます複雑な能力のモデルをベンチマークする必要がある。
そのようなタスクの1つは、イベントの将来の結果を予測することです。
本研究では,実世界の事象と関連する人的予測の新たなデータセットを用いた実験,予測能力を評価するための評価指標,提案したデータセット上での複数のLSMに基づく予測設計の精度について述べる。
さらに,LLM予測器の性能を人間の予測に対して解析し,モデルが今後も正確な予測を行うのに苦慮していることを確認した。
我々の追跡実験は、ほとんどの事象が起こらない(多くの予測データセットに当てはまる傾向にあるが、実際の予測能力は反映していない)と推測するモデルの傾向が原因であることを示している。
我々は,LLM予測の体系的かつ信頼性の高い手法を開発するための次のステップについて考察する。
関連論文リスト
- Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - LABOR-LLM: Language-Based Occupational Representations with Large Language Models [8.909328013944567]
本稿では,CAREER ファンデーションモデルの微調整を微調整 LLM に置き換える方法を検討する。
細調整されたLLMモデル予測は、市販のLLMモデルやCAREERよりも、様々な労働者サブ集団のキャリアトラジェクトリを代表していることを示す。
論文 参考訳(メタデータ) (2024-06-25T23:07:18Z) - Forecasting with Deep Learning: Beyond Average of Average of Average Performance [0.393259574660092]
予測モデルの評価と比較の現在のプラクティスは、パフォーマンスを1つのスコアにまとめることに集中しています。
複数の視点からモデルを評価するための新しいフレームワークを提案する。
このフレームワークの利点は、最先端のディープラーニングアプローチと古典的な予測手法を比較して示す。
論文 参考訳(メタデータ) (2024-06-24T12:28:22Z) - F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。
タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。
従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文 参考訳(メタデータ) (2024-06-23T21:28:50Z) - Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。
本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文 参考訳(メタデータ) (2024-02-28T18:54:18Z) - On some limitations of data-driven weather forecasting models [0.0]
本稿では,現在のMLモデルの先駆者であるPangu-Weather氏の予測のいくつかの側面について検討する。
主な結論は、Pangu-Weather予測と、おそらく同様のMLモデルの予測は、物理ベースのモデルの忠実性と物理的整合性を持っていないということである。
論文 参考訳(メタデータ) (2023-09-15T15:21:57Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Learning Accurate Long-term Dynamics for Model-based Reinforcement
Learning [7.194382512848327]
より長い地平線で安定的に予測するために, 状態作用データに対する教師付き学習のための新しいパラメータ化を提案する。
シミュレーションおよび実験によるロボット作業の結果,軌道に基づくモデルにより,より正確な長期予測が得られた。
論文 参考訳(メタデータ) (2020-12-16T18:47:37Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。