論文の概要: Outcome-based Reinforcement Learning to Predict the Future
- arxiv url: http://arxiv.org/abs/2505.17989v1
- Date: Fri, 23 May 2025 14:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.172544
- Title: Outcome-based Reinforcement Learning to Predict the Future
- Title(参考訳): 未来予測のためのアウトカムベース強化学習
- Authors: Benjamin Turtel, Danny Franklin, Kris Skotheim, Luke Hewitt, Philipp Schoenegger,
- Abstract要約: 報酬付き強化学習(RLVR)は、数学と大規模言語モデルでのコーディングを促進しているが、予測のような現実世界の領域にRLVRを拡張する努力はほとんどない。
結果のみのオンラインRLはフロンティアスケールの精度と一致し,キャリブレーションや仮説予測の市場賭けに勝ることを示す。
- 参考スコア(独自算出の注目度): 1.4313866885019229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has boosted math and coding in large language models, yet there has been little effort to extend RLVR into messier, real-world domains like forecasting. One sticking point is that outcome-based reinforcement learning for forecasting must learn from binary, delayed, and noisy rewards, a regime where standard fine-tuning is brittle. We show that outcome-only online RL on a 14B model can match frontier-scale accuracy and surpass it in calibration and hypothetical prediction market betting by adapting two leading algorithms, Group-Relative Policy Optimisation (GRPO) and ReMax, to the forecasting setting. Our adaptations remove per-question variance scaling in GRPO, apply baseline-subtracted advantages in ReMax, hydrate training with 100k temporally consistent synthetic questions, and introduce lightweight guard-rails that penalise gibberish, non-English responses and missing rationales, enabling a single stable pass over 110k events. Scaling ReMax to 110k questions and ensembling seven predictions yields a 14B model that matches frontier baseline o1 on accuracy on our holdout set (Brier = 0.193, p = 0.23) while beating it in calibration (ECE = 0.042, p < 0.001). A simple trading rule turns this calibration edge into \$127 of hypothetical profit versus \$92 for o1 (p = 0.037). This demonstrates that refined RLVR methods can convert small-scale LLMs into potentially economically valuable forecasting tools, with implications for scaling this to larger models.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、数学と大規模言語モデルでのコーディングを強化しているが、予測のようなより混乱した現実世界のドメインにRLVRを拡張する努力はほとんどなかった。
1つのスタンプポイントは、予測のための結果に基づく強化学習は、標準的な微調整が不安定な体制であるバイナリ、遅延、ノイズの報奨から学ぶ必要があることである。
14Bモデルにおける結果のみのオンラインRLはフロンティアスケールの精度と一致し、予測設定にグループ相対ポリシー最適化(GRPO)とReMaxという2つの主要なアルゴリズムを適用することにより、キャリブレーションと仮説予測市場賭けに勝ることを示す。
我々の適応は,GRPOにおける問合せごとの分散スケーリングを排除し,ReMaxにおけるベースライン抽出の利点を応用し,100kの時間的一貫した合成質問によるハイドレートトレーニングを施し,ジブベリッシュ,非英語応答,有理性の欠如を罰する軽量ガードレールを導入し,110k以上のイベントを安定的に通過できるようにする。
ReMaxを110kに拡張し、7つの予測をアンサンブルすると、フロンティアのベースラインo1に精度で一致する14Bモデル(Brier = 0.193, p = 0.23)が得られ、キャリブレーション(ECE = 0.042, p < 0.001)で打ち負かされる(ECE = 0.042, p < 0.001)。
単純な取引規則は、このキャリブレーションエッジを仮説的利益の127ドル、o1(p = 0.037)の92ドルに換算する。
このことは、改良されたRLVR法が、小規模のLCMを潜在的に経済的に価値のある予測ツールに変換できることを示し、これを大規模モデルに拡張することに役立つ。
関連論文リスト
- Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Minimal Batch Adaptive Learning Policy Engine for Real-Time Mid-Price Forecasting in High-Frequency Trading [1.7802147489386628]
本研究では,NASDAQのレベル1制限順序帳(LOB)データを用いた中間価格予測手法を提案する。
本稿では、バッチフリーで即時価格予測が可能な強化学習(RL)ベースのエージェントである適応学習ポリシーエンジン(ALPE)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T22:49:53Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - Feature Selection with Annealing for Forecasting Financial Time Series [2.44755919161855]
本研究では,機械学習(ML)モデルを用いた戦術的入力出力特徴マッピング技術に基づいて,財務時系列を総合的に予測する手法を提案する。
実験の結果,FSAアルゴリズムは問題の種類に関わらず,MLモデルの性能を向上することが示された。
論文 参考訳(メタデータ) (2023-03-03T21:33:38Z) - A Locally Adaptive Interpretable Regression [7.4267694612331905]
線形回帰は最も解釈可能な予測モデルの一つである。
本稿では,局所適応型解釈型回帰(LoAIR)を導入する。
我々のモデルは、他の最先端のベースラインと同等またはより良い予測性能を達成する。
論文 参考訳(メタデータ) (2020-05-07T09:26:14Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。