論文の概要: Outcome-based Reinforcement Learning to Predict the Future
- arxiv url: http://arxiv.org/abs/2505.17989v3
- Date: Wed, 30 Jul 2025 05:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.152195
- Title: Outcome-based Reinforcement Learning to Predict the Future
- Title(参考訳): 未来予測のためのアウトカムベース強化学習
- Authors: Benjamin Turtel, Danny Franklin, Kris Skotheim, Luke Hewitt, Philipp Schoenegger,
- Abstract要約: コンパクトな(14B)推論モデルは、o1のようなフロンティアモデルの予測精度に適合または超えるように訓練可能であることを示す。
ポリマーケットのトレーディングシミュレーションでは、その賭けが10%以上の投資のリターンをもたらすと見積もっている。
- 参考スコア(独自算出の注目度): 1.4313866885019229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has been an effective approach for improving Large Language Models' reasoning in domains such as coding and mathematics. Here, we apply RLVR methods towards forecasting future real-world events - a challenging task for RL due to the very noisy (and delayed) outcomes involved. Using a novel dataset of recent questions from a prediction market, and accompanying relevant news headlines, we show that a compact (14B) reasoning model can be trained to match or surpass the predictive accuracy of frontier models like o1, while greatly improving probabilistic calibration. The model's performance is also practically meaningful: in a Polymarket trading simulation, we estimate that its bets would have yielded a return on investment of over 10% across all questions in the test set. We detail and compare approaches used in training our model, including augmenting our training-data with synthetic prediction questions, guardrails for learning stability, and median prediction sampling at inference-time.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、プログラミングや数学などの分野における大規模言語モデルの推論を改善する効果的な手法である。
本稿では,RLVRの手法を将来的な実世界の事象の予測に適用する。
予測市場からの最新の質問のデータセットと関連するニュースの見出しを用いて、o1のようなフロンティアモデルの予測精度に適合または超えるよう、コンパクトな(14B)推論モデルを訓練し、確率的キャリブレーションを大幅に改善することを示した。
ポリマーケットのトレーディングシミュレーションでは、その賭けがテストセットの全質問に対して10%以上の投資のリターンをもたらすと見積もっている。
トレーニングデータと合成予測質問、学習安定のためのガードレール、推論時間における中央値予測サンプリングなど、モデルのトレーニングに使用されるアプローチの詳細と比較を行った。
関連論文リスト
- Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Minimal Batch Adaptive Learning Policy Engine for Real-Time Mid-Price Forecasting in High-Frequency Trading [1.7802147489386628]
本研究では,NASDAQのレベル1制限順序帳(LOB)データを用いた中間価格予測手法を提案する。
本稿では、バッチフリーで即時価格予測が可能な強化学習(RL)ベースのエージェントである適応学習ポリシーエンジン(ALPE)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T22:49:53Z) - Future-Guided Learning: A Predictive Approach To Enhance Time-Series Forecasting [4.866362841501992]
本稿では,予測符号化にインスパイアされた動的フィードバック機構を通じて時系列イベント予測を強化するアプローチであるFuture-Guided Learningを紹介する。
本手法は2つのモデルから構成される: 重要事象を識別するために将来のデータを解析する検出モデルと、これらの事象を現在のデータに基づいて予測する予測モデルである。
脳波データを用いた発作予測ではAUC-ROCが44.8%増加し,非線形力学系ではMSEが48.7%減少した。
論文 参考訳(メタデータ) (2024-10-19T21:22:55Z) - ReAugment: Model Zoo-Guided RL for Few-Shot Time Series Augmentation and Forecasting [74.00765474305288]
本稿では,時系列データ拡張のための強化学習(RL)の試験的検討を行う。
我々の手法であるReAugmentは、トレーニングセットのどの部分が拡張されるべきか、どのように拡張を行うべきか、RLがプロセスにどのような利点をもたらすのか、という3つの重要な問題に取り組む。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Prediction of rare events in the operation of household equipment using
co-evolving time series [1.1249583407496218]
我々のアプローチは、データの時間的挙動を利用して予測能力を向上する重み付き自己回帰モデルである。
合成および実世界のデータセットの評価は、我々の手法が家庭機器の故障予測手法よりも優れていることを裏付けている。
論文 参考訳(メタデータ) (2023-12-15T00:21:00Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - Feature Selection with Annealing for Forecasting Financial Time Series [2.44755919161855]
本研究では,機械学習(ML)モデルを用いた戦術的入力出力特徴マッピング技術に基づいて,財務時系列を総合的に予測する手法を提案する。
実験の結果,FSAアルゴリズムは問題の種類に関わらず,MLモデルの性能を向上することが示された。
論文 参考訳(メタデータ) (2023-03-03T21:33:38Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Using Machine Learning to Forecast Future Earnings [2.476455202580687]
我々は,企業基本の予測に基づいて,機械学習モデルの適用可能性と適合性を評価した。
我々のモデルは、アナリストが企業の基本についてより良い予測を行うのに好適な補助ツールとして機能することがすでに証明されている。
論文 参考訳(メタデータ) (2020-05-26T16:39:38Z) - A Locally Adaptive Interpretable Regression [7.4267694612331905]
線形回帰は最も解釈可能な予測モデルの一つである。
本稿では,局所適応型解釈型回帰(LoAIR)を導入する。
我々のモデルは、他の最先端のベースラインと同等またはより良い予測性能を達成する。
論文 参考訳(メタデータ) (2020-05-07T09:26:14Z) - A Time Series Analysis-Based Stock Price Prediction Using Machine
Learning and Deep Learning Models [0.0]
我々は、統計的、機械学習、ディープラーニングモデルの集合から成り立つ、非常に堅牢で正確な株価予測の枠組みを提示する。
当社は、インドの国立証券取引所(NSE)に上場している非常に有名な企業の、毎日の株価データを5分間隔で収集しています。
統計,機械学習,深層学習を組み合わせたモデル構築の凝集的アプローチは,株価データの揮発性およびランダムな動きパターンから極めて効果的に学習できる,と我々は主張する。
論文 参考訳(メタデータ) (2020-04-17T19:41:22Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。