論文の概要: Future-as-Label: Scalable Supervision from Real-World Outcomes
- arxiv url: http://arxiv.org/abs/2601.06336v2
- Date: Wed, 14 Jan 2026 22:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.309092
- Title: Future-as-Label: Scalable Supervision from Real-World Outcomes
- Title(参考訳): Future-as-Label: 現実の成果からのスケーラブルなスーパービジョン
- Authors: Benjamin Turtel, Paul Wilczewski, Danny Franklin, Kris Skothiem,
- Abstract要約: 時が自由な監督を生み出す: 現実の出来事に関する予測は、検証可能な結果に解決する。
我々は、実世界の予測に時間をかけて検証可能な報酬で強化学習を拡張した。
我々は、因果的にマスキングされた情報から確率予測を行うために言語モデルを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time creates free supervision: forecasts about real-world events resolve to verifiable outcomes. The passage of time provides labels that require no annotation. To exploit this structure, we extend reinforcement learning with verifiable rewards to real-world prediction over time. We train language models to make probabilistic forecasts from causally masked information, using proper scoring rules as the reward function once events resolve. Learning is driven entirely by realized outcomes, enabling scalable outcome-based supervision in open-world prediction. On real-world forecasting benchmarks, Qwen3-32B trained using Foresight Learning improves Brier score by 27% and halves calibration error relative to its pretrained baseline, and outperforms Qwen3-235B on both constructed future-event prediction tasks and the Metaculus benchmark despite a 7x parameter disadvantage.
- Abstract(参考訳): 時が自由な監督を生み出す: 現実の出来事に関する予測は、検証可能な結果に解決する。
時間の経過は、アノテーションを必要としないラベルを提供する。
この構造を利用するために、実世界の予測に時間をかけて検証可能な報酬で強化学習を拡張する。
我々は、適切なスコアリングルールをイベントが解決したら報酬関数として利用し、因果的マスマスキング情報から確率予測を行うために言語モデルを訓練する。
学習は完全に現実的な成果によって駆動され、オープンワールド予測におけるスケーラブルな成果ベースの監視を可能にします。
実世界の予測ベンチマークでは、Foresight Learningを用いてトレーニングされたQwen3-32Bは、事前トレーニングされたベースラインと比較してブライアスコアを27%改善し、キャリブレーション誤差を半減し、7倍のパラメータ不利益にもかかわらず、構築された将来の予測タスクとメタキュラスベンチマークの両方でQwen3-235Bを上回った。
関連論文リスト
- Neural CDEs as Correctors for Learned Time Series Models [0.0]
本研究では,予測器を学習時系列モデルとし,Correctorをニューラル制御微分方程式とする予測器・コレクタ機構を提案する。
提案したCorrectorは、不規則にサンプリングされた時系列と連続時間および離散時間予測器で動作する。
合成, 物理シミュレーション, 実世界の予測データセットにおいて, 様々な予測器を用いてコレクターを評価した。
論文 参考訳(メタデータ) (2025-12-13T01:17:05Z) - Improving Prediction Certainty Estimation for Reliable Early Exiting via Null Space Projection [16.838728310658105]
本稿では,Certainty-Aware Probability (CAP)スコアに基づく新しい早期退避手法を提案する。
本研究では,各タスクの平均高速化率は2.19倍であり,性能劣化は無視できることを示す。
論文 参考訳(メタデータ) (2025-06-08T05:08:34Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - STEMO: Early Spatio-temporal Forecasting with Multi-Objective Reinforcement Learning [11.324029387605888]
本稿では,多目的強化学習に基づく早期時相予測モデルを提案する。
提案手法は,3つの大規模実世界のデータセットに対して優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-06T13:03:51Z) - Loss Shaping Constraints for Long-Term Time Series Forecasting [79.3533114027664]
本稿では,長期時系列予測のための制約付き学習手法を提案する。
提案手法は, 予測ウィンドウ上でエラーを発生させながら, 時系列ベンチマークにおける競合平均性能を示すことを示すための, 実用的なプリマル・デュアルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:20:44Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Learning Prediction Intervals for Model Performance [1.433758865948252]
モデル性能の予測間隔を計算する手法を提案する。
我々は,幅広いドリフト条件におけるアプローチを評価し,競合ベースラインよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-12-15T21:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。