論文の概要: Future-as-Label: Scalable Supervision from Real-World Outcomes
- arxiv url: http://arxiv.org/abs/2601.06336v1
- Date: Fri, 09 Jan 2026 22:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.757636
- Title: Future-as-Label: Scalable Supervision from Real-World Outcomes
- Title(参考訳): Future-as-Label: 現実の成果からのスケーラブルなスーパービジョン
- Authors: Benjamin Turtel, Paul Wilczewski, Danny Franklin, Kris Skothiem,
- Abstract要約: 我々は、時間的に解決された実世界の予測に、検証可能な報酬で強化学習を拡張した。
我々は、因果的にマスキングされた情報の下で確率予測を行うために言語モデルを訓練する。
スーパービジョンは、解決後の結果のみから導かれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world prediction problems lack labels observable at prediction time, creating a temporal gap between prediction and outcome that yields supervision only after events resolve. To address this setting, we extend reinforcement learning with verifiable rewards to temporally resolved real-world prediction, and use it to train language models to make probabilistic forecasts under causally masked information with retrospective evaluation using proper scoring rules. Supervision is derived solely from post-resolution outcomes, preserving delayed-reward semantics. On real-world forecasting benchmarks, Qwen3-32B trained using Foresight Learning improves Brier score by 27% and halves calibration error relative to its pretrained baseline, and outperforms Qwen3-235B on both constructed future-event prediction tasks and the Metaculus benchmark despite a 7x parameter disadvantage.
- Abstract(参考訳): 現実の予測問題の多くは、予測時に観測可能なラベルを欠いているため、予測と結果の間に時間的ギャップが生じ、事象が解決した後にのみ監督される。
この設定に対処するために、実世界の予測を時間的に解決する上で、検証可能な報酬を伴う強化学習を拡張し、適切なスコアリングルールを用いて、因果的にマスキングされた情報の下で確率予測を行うための言語モデルを訓練するために使用する。
スーパービジョンは、解決後の結果のみから派生し、遅延逆意味論を保存する。
実世界の予測ベンチマークでは、Foresight Learningを用いてトレーニングされたQwen3-32Bは、事前トレーニングされたベースラインと比較してブライアスコアを27%改善し、キャリブレーション誤差を半減し、7倍のパラメータ不利益にもかかわらず、構築された将来の予測タスクとメタキュラスベンチマークの両方でQwen3-235Bを上回った。
関連論文リスト
- Neural CDEs as Correctors for Learned Time Series Models [0.0]
本研究では,予測器を学習時系列モデルとし,Correctorをニューラル制御微分方程式とする予測器・コレクタ機構を提案する。
提案したCorrectorは、不規則にサンプリングされた時系列と連続時間および離散時間予測器で動作する。
合成, 物理シミュレーション, 実世界の予測データセットにおいて, 様々な予測器を用いてコレクターを評価した。
論文 参考訳(メタデータ) (2025-12-13T01:17:05Z) - Improving Prediction Certainty Estimation for Reliable Early Exiting via Null Space Projection [16.838728310658105]
本稿では,Certainty-Aware Probability (CAP)スコアに基づく新しい早期退避手法を提案する。
本研究では,各タスクの平均高速化率は2.19倍であり,性能劣化は無視できることを示す。
論文 参考訳(メタデータ) (2025-06-08T05:08:34Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - STEMO: Early Spatio-temporal Forecasting with Multi-Objective Reinforcement Learning [11.324029387605888]
本稿では,多目的強化学習に基づく早期時相予測モデルを提案する。
提案手法は,3つの大規模実世界のデータセットに対して優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-06T13:03:51Z) - Loss Shaping Constraints for Long-Term Time Series Forecasting [79.3533114027664]
本稿では,長期時系列予測のための制約付き学習手法を提案する。
提案手法は, 予測ウィンドウ上でエラーを発生させながら, 時系列ベンチマークにおける競合平均性能を示すことを示すための, 実用的なプリマル・デュアルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:20:44Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Learning Prediction Intervals for Model Performance [1.433758865948252]
モデル性能の予測間隔を計算する手法を提案する。
我々は,幅広いドリフト条件におけるアプローチを評価し,競合ベースラインよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-12-15T21:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。