論文の概要: Foresight Learning for SEC Risk Prediction
- arxiv url: http://arxiv.org/abs/2601.19189v1
- Date: Tue, 27 Jan 2026 04:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.17558
- Title: Foresight Learning for SEC Risk Prediction
- Title(参考訳): SECリスク予測の今後の展望
- Authors: Benjamin Turtel, Paul Wilczewski, Danny Franklin, Kris Skotheim,
- Abstract要約: SECに提出されたリスク開示は潜在的な有害事象を記述しているが、その可能性の定量化はめったにない。
中心的な障害は、大規模でリスクレベルの監督がないことであり、開示されたリスクと実現された結果がリンクされている。
我々は、定性的なSECリスク開示を時間的基盤の監視に変換する、完全に自動化されたデータ生成パイプラインを導入します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk disclosures in SEC filings describe potential adverse events but rarely quantify their likelihood, limiting their usefulness for probabilistic analysis. A central obstacle is the absence of large-scale, risk-level supervision linking disclosed risks to realized outcomes. We introduce a fully automated data generation pipeline that converts qualitative SEC risk disclosures into temporally grounded supervision using only public data. For each filing, the pipeline generates firm-specific, time-bounded risk queries from the Risk Factors section and labels them by automatically resolving outcomes against subsequent disclosures. Using this dataset of risk queries and outcomes grounded in SEC filings, we train a compact large language model to estimate the probability that a disclosed risk will materialize within a specified horizon. Despite its modest size, the resulting model substantially improves over pretrained and heuristic baselines, and outperforms frontier general-purpose models, including GPT-5, on probabilistic accuracy and calibration. More broadly, this work demonstrates that Foresight Learning enables scalable and fully automated training of domain-specific expert models using only raw, chronological, in-domain text -- without proprietary data, external corpora, or manual annotation. The resulting models achieve frontier-level performance while remaining deployable on a single GPU. This result suggests a general pathway for learning calibrated, decision-relevant signals from naturally occurring enterprise documents. To support transparency and reproducibility, we open-source the evaluation dataset used in this study. Evaluation Data: https://huggingface.co/datasets/LightningRodLabs/sec_risk_questions_test_set Data Generation Platform: https://lightningrod.ai/ SDK: https://github.com/lightning-rod-labs/lightningrod-python-sdk
- Abstract(参考訳): SECに提出されたリスク開示は潜在的な有害事象を記述しているが、その可能性の定量化はめったになく、確率分析に有用性を制限する。
中心的な障害は、大規模でリスクレベルの監督がないことであり、開示されたリスクと実現された結果がリンクされている。
我々は、SECの質的なリスク開示を、公開データのみを使用して時間的に根拠づけられた監視に変換する、完全に自動化されたデータ生成パイプラインを導入します。
各申請について、パイプラインはリスクファクターセクションから、しっかりとした時間制限付きリスククエリを生成し、その後の開示に対する結果を自動的に解決することでラベル付けする。
SECに提出されたリスククエリと結果のデータセットを用いて、開示されたリスクが特定の地平線内で実現される確率を推定するために、コンパクトな大規模言語モデルを訓練する。
その質素なサイズにもかかわらず、結果として得られたモデルは事前訓練されたベースラインやヒューリスティックベースラインよりも大幅に改善され、GPT-5を含むフロンティア汎用モデルよりも確率的精度とキャリブレーションが優れている。
より広く、この研究はForesight Learningが、プロプライエタリなデータ、外部コーパス、手動のアノテーションなしで、生、時系列、ドメイン内テキストのみを使用して、ドメイン固有のエキスパートモデルのスケーラブルで完全に自動化されたトレーニングを可能にすることを実証している。
結果として得られたモデルは、単一のGPU上でデプロイ可能なまま、フロンティアレベルのパフォーマンスを達成する。
この結果は、自然発生の企業文書から、校正された決定関連シグナルを学習するための一般的な経路を示唆している。
透明性と再現性をサポートするため,本研究で使用される評価データセットをオープンソース化した。
評価データ: https://huggingface.co/datasets/LightningRodLabs/sec_risk_questions_test_set Data Generation Platform: https://lightningrod.ai/ SDK: https://github.com/lightning-rod-labs/lightningrod-python-sdk
関連論文リスト
- Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - Unlearned but Not Forgotten: Data Extraction after Exact Unlearning in LLM [31.093224824043087]
学習前モデルからの信号を利用して学習後モデルを導く新しいデータ抽出攻撃を導入する。
シミュレーションされた医療診断データセット上での攻撃の有効性を実証し、正確なアンラーニングに関連する現実世界のプライバシーリスクを明らかにする。
論文 参考訳(メタデータ) (2025-05-30T09:09:33Z) - Uncertainty-Aware Trajectory Prediction via Rule-Regularized Heteroscedastic Deep Classification [3.126303871979975]
ShiFT (Spectral Heteroscedastic Informed Forecasting for Trajectories) は、よく校正された不確実性モデリングと情報前処理を組み合わせた新しいフレームワークである。
我々のモデルは、本質的に不確実性が高い交差点のような複雑なシナリオで優れている。
論文 参考訳(メタデータ) (2025-04-17T17:24:50Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Detecting and Mitigating Test-time Failure Risks via Model-agnostic
Uncertainty Learning [30.86992077157326]
本稿では,すでに訓練済みのブラックボックス分類モデルの失敗リスクと予測的不確かさを推定するための,ポストホックメタラーナーであるリスクアドバイザを紹介する。
リスクアドバイザは、リスクスコアの提供に加えて、不確実性見積を、アレタリックおよびエピステマティックな不確実性コンポーネントに分解する。
ブラックボックス分類モデルおよび実世界および合成データセットのさまざまなファミリーの実験は、リスクアドバイザーがデプロイメント時の障害リスクを確実に予測していることを示している。
論文 参考訳(メタデータ) (2021-09-09T17:23:31Z) - Incorporating Causal Graphical Prior Knowledge into Predictive Modeling
via Simple Data Augmentation [92.96204497841032]
因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。
本研究では,条件付き独立性(CI)関係の事前知識を活用可能なモデルに依存しないデータ拡張手法を提案する。
本手法は,小データシステムにおける予測精度の向上に有効であることを実験的に示した。
論文 参考訳(メタデータ) (2021-02-27T06:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。