Fugu-MT 論文翻訳(概要): Can Language Models Use Forecasting Strategies?

論文の概要: Can Language Models Use Forecasting Strategies?

arxiv url: http://arxiv.org/abs/2406.04446v1
Date: Thu, 6 Jun 2024 19:01:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 18:17:07.905850
Title: Can Language Models Use Forecasting Strategies?
Title（参考訳）: 言語モデルは予測戦略を使えるか?
Authors: Sarah Pratt, Seth Blumberg, Pietro Kreitlon Carolino, Meredith Ringel Morris,
Abstract要約: 実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。モデルはまだ、未来に関する正確な予測に苦戦している。
参考スコア（独自算出の注目度）: 14.332379032371612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in deep learning systems have allowed large models to match or surpass human accuracy on a number of skills such as image classification, basic programming, and standardized test taking. As the performance of the most capable models begin to saturate on tasks where humans already achieve high accuracy, it becomes necessary to benchmark models on increasingly complex abilities. One such task is forecasting the future outcome of events. In this work we describe experiments using a novel dataset of real world events and associated human predictions, an evaluation metric to measure forecasting ability, and the accuracy of a number of different LLM based forecasting designs on the provided dataset. Additionally, we analyze the performance of the LLM forecasters against human predictions and find that models still struggle to make accurate predictions about the future. Our follow-up experiments indicate this is likely due to models' tendency to guess that most events are unlikely to occur (which tends to be true for many prediction datasets, but does not reflect actual forecasting abilities). We reflect on next steps for developing a systematic and reliable approach to studying LLM forecasting.
Abstract（参考訳）: ディープラーニングシステムの進歩により、画像分類、基本プログラミング、標準化されたテストテイクなど、多数のスキルにおいて、大規模なモデルが人間の精度にマッチしたり、超えたりすることが可能になった。最も有能なモデルの性能が、人間が既に高い精度で達成しているタスクで飽和し始めるにつれ、ますます複雑な能力のモデルをベンチマークする必要がある。そのようなタスクの1つは、イベントの将来の結果を予測することです。本研究では,実世界の事象と関連する人的予測の新たなデータセットを用いた実験,予測能力を評価するための評価指標,提案したデータセット上での複数のLSMに基づく予測設計の精度について述べる。さらに,LLM予測器の性能を人間の予測に対して解析し,モデルが今後も正確な予測を行うのに苦慮していることを確認した。我々の追跡実験は、ほとんどの事象が起こらない(多くの予測データセットに当てはまる傾向にあるが、実際の予測能力は反映していない)と推測するモデルの傾向が原因であることを示している。我々は,LLM予測の体系的かつ信頼性の高い手法を開発するための次のステップについて考察する。

関連論文リスト

How Well Do LLMs Predict Human Behavior? A Measure of their Pretrained Knowledge [0.0]
大規模言語モデル(LLM)は、人間の行動を予測するのにますます使われている。本稿では,事前学習したLLMが,そのような予測にどの程度の知識をもたらすかを評価する尺度を提案する。本研究では,ある領域における固定LDMの予測誤差を,ドメイン固有データのサンプル増加に基づいて学習したフレキシブル機械学習モデルと比較することにより,この測定値を推定する。
論文参考訳（メタデータ） (2026-01-18T10:28:54Z)
Scaling Open-Ended Reasoning to Predict the Future [56.672065928345525]
我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
論文参考訳（メタデータ） (2025-12-31T18:59:51Z)
The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification [74.64864354503204]
本稿では,Large Language Models (LLM) を利用した予測自動監視システムであるThe Forecast Criticを提案する。 LLMの時系列予測品質を評価する能力を評価する。合成および実世界の予測データを含む3つの実験を行った。
論文参考訳（メタデータ） (2025-12-12T21:59:53Z)
Predicting Language Models' Success at Zero-Shot Probabilistic Prediction [23.802154124780376]
個人レベルの特徴を生成するためのゼロショットモデルとして,大規模言語モデル(LLM)の能力について検討する。 LLMのパフォーマンスは、同じデータセット内のタスクと異なるデータセットの両方で非常に可変であることがわかった。タスクレベルでのLLMのパフォーマンスを予測するためのメトリクスを構築し、LLMがうまく機能する可能性のあるタスクと、それらが適さない可能性のあるタスクを区別することを目的としている。
論文参考訳（メタデータ） (2025-09-18T18:57:05Z)
Navigating Tomorrow: Reliably Assessing Large Language Models Performance on Future Event Prediction [17.021220773165016]
本研究では,将来の予測タスクを支援するために,複数の大規模言語モデル(LLM)の性能を評価する。我々は、エンティティタイプとその人気に基づいてニュース記事を発見し分類することで、データセット1を作成する。
論文参考訳（メタデータ） (2025-01-10T12:44:46Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Future-Guided Learning: A Predictive Approach To Enhance Time-Series Forecasting [4.866362841501992]
本稿では,予測符号化にインスパイアされた動的フィードバック機構を通じて時系列イベント予測を強化するアプローチであるFuture-Guided Learningを紹介する。本手法は2つのモデルから構成される: 重要事象を識別するために将来のデータを解析する検出モデルと、これらの事象を現在のデータに基づいて予測する予測モデルである。脳波データを用いた発作予測ではAUC-ROCが44.8%増加し,非線形力学系ではMSEが48.7%減少した。
論文参考訳（メタデータ） (2024-10-19T21:22:55Z)
LABOR-LLM: Language-Based Occupational Representations with Large Language Models [8.909328013944567]
本稿では,CAREER ファンデーションモデルの微調整を微調整 LLM に置き換える方法を検討する。細調整されたLLMモデル予測は、市販のLLMモデルやCAREERよりも、様々な労働者サブ集団のキャリアトラジェクトリを代表していることを示す。
論文参考訳（メタデータ） (2024-06-25T23:07:18Z)
Forecasting with Deep Learning: Beyond Average of Average of Average Performance [0.393259574660092]
予測モデルの評価と比較の現在のプラクティスは、パフォーマンスを1つのスコアにまとめることに集中しています。複数の視点からモデルを評価するための新しいフレームワークを提案する。このフレームワークの利点は、最先端のディープラーニングアプローチと古典的な予測手法を比較して示す。
論文参考訳（メタデータ） (2024-06-24T12:28:22Z)
F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文参考訳（メタデータ） (2024-06-23T21:28:50Z)
Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文参考訳（メタデータ） (2024-02-28T18:54:18Z)
On some limitations of data-driven weather forecasting models [0.0]
本稿では,現在のMLモデルの先駆者であるPangu-Weather氏の予測のいくつかの側面について検討する。主な結論は、Pangu-Weather予測と、おそらく同様のMLモデルの予測は、物理ベースのモデルの忠実性と物理的整合性を持っていないということである。
論文参考訳（メタデータ） (2023-09-15T15:21:57Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文参考訳（メタデータ） (2021-06-22T18:29:58Z)
Learning Accurate Long-term Dynamics for Model-based Reinforcement Learning [7.194382512848327]
より長い地平線で安定的に予測するために, 状態作用データに対する教師付き学習のための新しいパラメータ化を提案する。シミュレーションおよび実験によるロボット作業の結果,軌道に基づくモデルにより,より正確な長期予測が得られた。
論文参考訳（メタデータ） (2020-12-16T18:47:37Z)
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文参考訳（メタデータ） (2020-12-08T18:03:21Z)
Ambiguity in Sequential Data: Predicting Uncertain Futures with Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文参考訳（メタデータ） (2020-03-10T09:15:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。