論文の概要: Outcome-based Reinforcement Learning to Predict the Future
- arxiv url: http://arxiv.org/abs/2505.17989v1
- Date: Fri, 23 May 2025 14:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.172544
- Title: Outcome-based Reinforcement Learning to Predict the Future
- Title(参考訳): 未来予測のためのアウトカムベース強化学習
- Authors: Benjamin Turtel, Danny Franklin, Kris Skotheim, Luke Hewitt, Philipp Schoenegger,
- Abstract要約: 報酬付き強化学習(RLVR)は、数学と大規模言語モデルでのコーディングを促進しているが、予測のような現実世界の領域にRLVRを拡張する努力はほとんどない。
結果のみのオンラインRLはフロンティアスケールの精度と一致し,キャリブレーションや仮説予測の市場賭けに勝ることを示す。
- 参考スコア(独自算出の注目度): 1.4313866885019229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has boosted math and coding in large language models, yet there has been little effort to extend RLVR into messier, real-world domains like forecasting. One sticking point is that outcome-based reinforcement learning for forecasting must learn from binary, delayed, and noisy rewards, a regime where standard fine-tuning is brittle. We show that outcome-only online RL on a 14B model can match frontier-scale accuracy and surpass it in calibration and hypothetical prediction market betting by adapting two leading algorithms, Group-Relative Policy Optimisation (GRPO) and ReMax, to the forecasting setting. Our adaptations remove per-question variance scaling in GRPO, apply baseline-subtracted advantages in ReMax, hydrate training with 100k temporally consistent synthetic questions, and introduce lightweight guard-rails that penalise gibberish, non-English responses and missing rationales, enabling a single stable pass over 110k events. Scaling ReMax to 110k questions and ensembling seven predictions yields a 14B model that matches frontier baseline o1 on accuracy on our holdout set (Brier = 0.193, p = 0.23) while beating it in calibration (ECE = 0.042, p < 0.001). A simple trading rule turns this calibration edge into \$127 of hypothetical profit versus \$92 for o1 (p = 0.037). This demonstrates that refined RLVR methods can convert small-scale LLMs into potentially economically valuable forecasting tools, with implications for scaling this to larger models.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、数学と大規模言語モデルでのコーディングを強化しているが、予測のようなより混乱した現実世界のドメインにRLVRを拡張する努力はほとんどなかった。
1つのスタンプポイントは、予測のための結果に基づく強化学習は、標準的な微調整が不安定な体制であるバイナリ、遅延、ノイズの報奨から学ぶ必要があることである。
14Bモデルにおける結果のみのオンラインRLはフロンティアスケールの精度と一致し、予測設定にグループ相対ポリシー最適化(GRPO)とReMaxという2つの主要なアルゴリズムを適用することにより、キャリブレーションと仮説予測市場賭けに勝ることを示す。
我々の適応は,GRPOにおける問合せごとの分散スケーリングを排除し,ReMaxにおけるベースライン抽出の利点を応用し,100kの時間的一貫した合成質問によるハイドレートトレーニングを施し,ジブベリッシュ,非英語応答,有理性の欠如を罰する軽量ガードレールを導入し,110k以上のイベントを安定的に通過できるようにする。
ReMaxを110kに拡張し、7つの予測をアンサンブルすると、フロンティアのベースラインo1に精度で一致する14Bモデル(Brier = 0.193, p = 0.23)が得られ、キャリブレーション(ECE = 0.042, p < 0.001)で打ち負かされる(ECE = 0.042, p < 0.001)。
単純な取引規則は、このキャリブレーションエッジを仮説的利益の127ドル、o1(p = 0.037)の92ドルに換算する。
このことは、改良されたRLVR法が、小規模のLCMを潜在的に経済的に価値のある予測ツールに変換できることを示し、これを大規模モデルに拡張することに役立つ。
関連論文リスト
- Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Minimal Batch Adaptive Learning Policy Engine for Real-Time Mid-Price Forecasting in High-Frequency Trading [1.7802147489386628]
本研究では,NASDAQのレベル1制限順序帳(LOB)データを用いた中間価格予測手法を提案する。
本稿では、バッチフリーで即時価格予測が可能な強化学習(RL)ベースのエージェントである適応学習ポリシーエンジン(ALPE)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T22:49:53Z) - Future-Guided Learning: A Predictive Approach To Enhance Time-Series Forecasting [4.866362841501992]
本稿では,予測符号化にインスパイアされた動的フィードバック機構を通じて時系列イベント予測を強化するアプローチであるFuture-Guided Learningを紹介する。
本手法は2つのモデルから構成される: 重要事象を識別するために将来のデータを解析する検出モデルと、これらの事象を現在のデータに基づいて予測する予測モデルである。
脳波データを用いた発作予測ではAUC-ROCが44.8%増加し,非線形力学系ではMSEが48.7%減少した。
論文 参考訳(メタデータ) (2024-10-19T21:22:55Z) - ReAugment: Model Zoo-Guided RL for Few-Shot Time Series Augmentation and Forecasting [74.00765474305288]
本稿では,時系列データ拡張のための強化学習(RL)の試験的検討を行う。
我々の手法であるReAugmentは、トレーニングセットのどの部分が拡張されるべきか、どのように拡張を行うべきか、RLがプロセスにどのような利点をもたらすのか、という3つの重要な問題に取り組む。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Prediction of rare events in the operation of household equipment using
co-evolving time series [1.1249583407496218]
我々のアプローチは、データの時間的挙動を利用して予測能力を向上する重み付き自己回帰モデルである。
合成および実世界のデータセットの評価は、我々の手法が家庭機器の故障予測手法よりも優れていることを裏付けている。
論文 参考訳(メタデータ) (2023-12-15T00:21:00Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - Feature Selection with Annealing for Forecasting Financial Time Series [2.44755919161855]
本研究では,機械学習(ML)モデルを用いた戦術的入力出力特徴マッピング技術に基づいて,財務時系列を総合的に予測する手法を提案する。
実験の結果,FSAアルゴリズムは問題の種類に関わらず,MLモデルの性能を向上することが示された。
論文 参考訳(メタデータ) (2023-03-03T21:33:38Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Using Machine Learning to Forecast Future Earnings [2.476455202580687]
我々は,企業基本の予測に基づいて,機械学習モデルの適用可能性と適合性を評価した。
我々のモデルは、アナリストが企業の基本についてより良い予測を行うのに好適な補助ツールとして機能することがすでに証明されている。
論文 参考訳(メタデータ) (2020-05-26T16:39:38Z) - A Locally Adaptive Interpretable Regression [7.4267694612331905]
線形回帰は最も解釈可能な予測モデルの一つである。
本稿では,局所適応型解釈型回帰(LoAIR)を導入する。
我々のモデルは、他の最先端のベースラインと同等またはより良い予測性能を達成する。
論文 参考訳(メタデータ) (2020-05-07T09:26:14Z) - A Time Series Analysis-Based Stock Price Prediction Using Machine
Learning and Deep Learning Models [0.0]
我々は、統計的、機械学習、ディープラーニングモデルの集合から成り立つ、非常に堅牢で正確な株価予測の枠組みを提示する。
当社は、インドの国立証券取引所(NSE)に上場している非常に有名な企業の、毎日の株価データを5分間隔で収集しています。
統計,機械学習,深層学習を組み合わせたモデル構築の凝集的アプローチは,株価データの揮発性およびランダムな動きパターンから極めて効果的に学習できる,と我々は主張する。
論文 参考訳(メタデータ) (2020-04-17T19:41:22Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。