論文の概要: Outcome-based Reinforcement Learning to Predict the Future
- arxiv url: http://arxiv.org/abs/2505.17989v3
- Date: Wed, 30 Jul 2025 05:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.152195
- Title: Outcome-based Reinforcement Learning to Predict the Future
- Title(参考訳): 未来予測のためのアウトカムベース強化学習
- Authors: Benjamin Turtel, Danny Franklin, Kris Skotheim, Luke Hewitt, Philipp Schoenegger,
- Abstract要約: コンパクトな(14B)推論モデルは、o1のようなフロンティアモデルの予測精度に適合または超えるように訓練可能であることを示す。
ポリマーケットのトレーディングシミュレーションでは、その賭けが10%以上の投資のリターンをもたらすと見積もっている。
- 参考スコア(独自算出の注目度): 1.4313866885019229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has been an effective approach for improving Large Language Models' reasoning in domains such as coding and mathematics. Here, we apply RLVR methods towards forecasting future real-world events - a challenging task for RL due to the very noisy (and delayed) outcomes involved. Using a novel dataset of recent questions from a prediction market, and accompanying relevant news headlines, we show that a compact (14B) reasoning model can be trained to match or surpass the predictive accuracy of frontier models like o1, while greatly improving probabilistic calibration. The model's performance is also practically meaningful: in a Polymarket trading simulation, we estimate that its bets would have yielded a return on investment of over 10% across all questions in the test set. We detail and compare approaches used in training our model, including augmenting our training-data with synthetic prediction questions, guardrails for learning stability, and median prediction sampling at inference-time.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、プログラミングや数学などの分野における大規模言語モデルの推論を改善する効果的な手法である。
本稿では,RLVRの手法を将来的な実世界の事象の予測に適用する。
予測市場からの最新の質問のデータセットと関連するニュースの見出しを用いて、o1のようなフロンティアモデルの予測精度に適合または超えるよう、コンパクトな(14B)推論モデルを訓練し、確率的キャリブレーションを大幅に改善することを示した。
ポリマーケットのトレーディングシミュレーションでは、その賭けがテストセットの全質問に対して10%以上の投資のリターンをもたらすと見積もっている。
トレーニングデータと合成予測質問、学習安定のためのガードレール、推論時間における中央値予測サンプリングなど、モデルのトレーニングに使用されるアプローチの詳細と比較を行った。
関連論文リスト
- Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Minimal Batch Adaptive Learning Policy Engine for Real-Time Mid-Price Forecasting in High-Frequency Trading [1.7802147489386628]
本研究では,NASDAQのレベル1制限順序帳(LOB)データを用いた中間価格予測手法を提案する。
本稿では、バッチフリーで即時価格予測が可能な強化学習(RL)ベースのエージェントである適応学習ポリシーエンジン(ALPE)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T22:49:53Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - Feature Selection with Annealing for Forecasting Financial Time Series [2.44755919161855]
本研究では,機械学習(ML)モデルを用いた戦術的入力出力特徴マッピング技術に基づいて,財務時系列を総合的に予測する手法を提案する。
実験の結果,FSAアルゴリズムは問題の種類に関わらず,MLモデルの性能を向上することが示された。
論文 参考訳(メタデータ) (2023-03-03T21:33:38Z) - A Locally Adaptive Interpretable Regression [7.4267694612331905]
線形回帰は最も解釈可能な予測モデルの一つである。
本稿では,局所適応型解釈型回帰(LoAIR)を導入する。
我々のモデルは、他の最先端のベースラインと同等またはより良い予測性能を達成する。
論文 参考訳(メタデータ) (2020-05-07T09:26:14Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。