論文の概要: Future-as-Label: Scalable Supervision from Real-World Outcomes
- arxiv url: http://arxiv.org/abs/2601.06336v1
- Date: Fri, 09 Jan 2026 22:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.757636
- Title: Future-as-Label: Scalable Supervision from Real-World Outcomes
- Title(参考訳): Future-as-Label: 現実の成果からのスケーラブルなスーパービジョン
- Authors: Benjamin Turtel, Paul Wilczewski, Danny Franklin, Kris Skothiem,
- Abstract要約: 我々は、時間的に解決された実世界の予測に、検証可能な報酬で強化学習を拡張した。
我々は、因果的にマスキングされた情報の下で確率予測を行うために言語モデルを訓練する。
スーパービジョンは、解決後の結果のみから導かれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world prediction problems lack labels observable at prediction time, creating a temporal gap between prediction and outcome that yields supervision only after events resolve. To address this setting, we extend reinforcement learning with verifiable rewards to temporally resolved real-world prediction, and use it to train language models to make probabilistic forecasts under causally masked information with retrospective evaluation using proper scoring rules. Supervision is derived solely from post-resolution outcomes, preserving delayed-reward semantics. On real-world forecasting benchmarks, Qwen3-32B trained using Foresight Learning improves Brier score by 27% and halves calibration error relative to its pretrained baseline, and outperforms Qwen3-235B on both constructed future-event prediction tasks and the Metaculus benchmark despite a 7x parameter disadvantage.
- Abstract(参考訳): 現実の予測問題の多くは、予測時に観測可能なラベルを欠いているため、予測と結果の間に時間的ギャップが生じ、事象が解決した後にのみ監督される。
この設定に対処するために、実世界の予測を時間的に解決する上で、検証可能な報酬を伴う強化学習を拡張し、適切なスコアリングルールを用いて、因果的にマスキングされた情報の下で確率予測を行うための言語モデルを訓練するために使用する。
スーパービジョンは、解決後の結果のみから派生し、遅延逆意味論を保存する。
実世界の予測ベンチマークでは、Foresight Learningを用いてトレーニングされたQwen3-32Bは、事前トレーニングされたベースラインと比較してブライアスコアを27%改善し、キャリブレーション誤差を半減し、7倍のパラメータ不利益にもかかわらず、構築された将来の予測タスクとメタキュラスベンチマークの両方でQwen3-235Bを上回った。
関連論文リスト
- Scaling Open-Ended Reasoning to Predict the Future [56.672065928345525]
我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。
トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。
トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
論文 参考訳(メタデータ) (2025-12-31T18:59:51Z) - Neural CDEs as Correctors for Learned Time Series Models [0.0]
本研究では,予測器を学習時系列モデルとし,Correctorをニューラル制御微分方程式とする予測器・コレクタ機構を提案する。
提案したCorrectorは、不規則にサンプリングされた時系列と連続時間および離散時間予測器で動作する。
合成, 物理シミュレーション, 実世界の予測データセットにおいて, 様々な予測器を用いてコレクターを評価した。
論文 参考訳(メタデータ) (2025-12-13T01:17:05Z) - Improving Prediction Certainty Estimation for Reliable Early Exiting via Null Space Projection [16.838728310658105]
本稿では,Certainty-Aware Probability (CAP)スコアに基づく新しい早期退避手法を提案する。
本研究では,各タスクの平均高速化率は2.19倍であり,性能劣化は無視できることを示す。
論文 参考訳(メタデータ) (2025-06-08T05:08:34Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - STEMO: Early Spatio-temporal Forecasting with Multi-Objective Reinforcement Learning [11.324029387605888]
本稿では,多目的強化学習に基づく早期時相予測モデルを提案する。
提案手法は,3つの大規模実世界のデータセットに対して優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-06T13:03:51Z) - Loss Shaping Constraints for Long-Term Time Series Forecasting [79.3533114027664]
本稿では,長期時系列予測のための制約付き学習手法を提案する。
提案手法は, 予測ウィンドウ上でエラーを発生させながら, 時系列ベンチマークにおける競合平均性能を示すことを示すための, 実用的なプリマル・デュアルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:20:44Z) - Performative Time-Series Forecasting [64.03865043422597]
我々は,機械学習の観点から,パフォーマンス時系列予測(PeTS)を定式化する。
本稿では,予測分布シフトに対する遅延応答の概念を活用する新しい手法であるFeature Performative-Shifting(FPS)を提案する。
新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2023-10-09T18:34:29Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - All-Clear Flare Prediction Using Interval-based Time Series Classifiers [0.21028463367241026]
オールクリアフレア予測は、非フレアインスタンスの予測に重点を置く太陽フレア予測の一種です。
偽陰性(ミス)を避けることと偽陽性(偽アラーム)を減らすことの適切なバランスを見つけることは、しばしば困難である。
論文 参考訳(メタデータ) (2021-05-03T22:40:05Z) - Learning Prediction Intervals for Model Performance [1.433758865948252]
モデル性能の予測間隔を計算する手法を提案する。
我々は,幅広いドリフト条件におけるアプローチを評価し,競合ベースラインよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-12-15T21:32:03Z) - A framework for predicting, interpreting, and improving Learning
Outcomes [0.0]
本研究では,学生の観察的,行動的,受験的特徴に基づいて,テストスコアを予測するEmbibe Score Quotient Model(ESQ)を開発した。
ESQは、学生の将来的な採点可能性の予測や、個別の学習ナッジの提供に使用することができる。
論文 参考訳(メタデータ) (2020-10-06T11:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。