Fugu-MT 論文翻訳(概要): Summoning the Oracle to Slay It: Mitigating Look-Ahead Bias in Financial Backtesting with Large Language Models

論文の概要: Summoning the Oracle to Slay It: Mitigating Look-Ahead Bias in Financial Backtesting with Large Language Models

arxiv url: http://arxiv.org/abs/2605.24564v1
Date: Sat, 23 May 2026 12:57:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.247489
Title: Summoning the Oracle to Slay It: Mitigating Look-Ahead Bias in Financial Backtesting with Large Language Models
Title（参考訳）: Oracle が Slay を推奨する - 大規模言語モデルによる金融バックテストにおけるルックアヘッドバイアスの緩和
Authors: Weixian Waylon Li, Mengyu Wang, Tiejun Ma,
Abstract要約: FinCADはContext-Aware Decodingの推論時間適応である。 LLMの歴史的成果の記憶を再訓練せずに抑制する。暗記された日付で、サンプル内のバックテストのリターンを最大-67.1%削減する。
参考スコア（独自算出の注目度）: 4.543414953623604
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Backtesting large language models (LLMs) on historical financial data is unreliable because pre-training cuts off after the events happened. An LLM trained in 2024 already "knows" which way 2018-2020 stocks moved. We name this failure parametric look-ahead bias and propose FinCAD, an inference-time adaptation of Context-Aware Decoding that suppresses an LLM's memory of historical outcomes without retraining. FinCAD pairs an adversarial bias-discovery pipeline that learns a model-specific memory-activating prior prompt with an entity- and date-adaptive rule that scales the CAD strength to per-(entity, date) memorisation, so the penalty fires on memorised in-sample dates and decays to zero out-of-sample. Across five 7-14B LLMs and five mega-cap equities, FinCAD cuts in-sample backtest returns by up to -67.1% on memorised dates while leaving 2025 out-of-sample returns within $8K and Sharpe within 0.10 of baseline, and preserves general-purpose reasoning within 1.7 pts. On an eleven-model leaderboard, it raises the in-sample / out-of-sample Spearman correlation from +0.779 to +0.846, recovering rankings that genuinely predict out-of-sample performance.
Abstract（参考訳）: 過去の財務データに大規模な言語モデル(LLM)をバックテストすることは、イベント発生後に事前トレーニングが停止されるため、信頼性が低い。 LLMは2024年に訓練を受け、2018-2020の株式の移動の仕方について「知る」ことができた。我々は、この障害パラメトリック・ルックアヘッドバイアスを命名し、LLMの履歴結果の記憶を再トレーニングせずに抑制するコンテキスト認識デコーディングの推論時適応であるFinCADを提案する。 FinCADは、モデル固有のメモリアクティベーション前プロンプトを学習する逆バイアス発見パイプラインと、CAD強度を(日付、日付)毎の記憶に拡張するエンティティおよび日付適応ルールとをペアリングする。 5つの7-14B LLMと5つのメガキャップ株式にまたがって、FinCADは記録された日付で最大で-67.1%のバックテストを行い、2025年のアウト・オブ・サンプル・リターンは8K、シャープは0.10のベースラインで、汎用的な推論は1.7pts以内である。 11モデルのリーダーボードでは、インサンプル/アウトオブサンプルのスピアマン相関を+0.779から+0.846に引き上げ、アウトオブサンプルのパフォーマンスを真に予測するランキングを回復させる。

関連論文リスト

MemGuard-Alpha: Detecting and Filtering Memorization-Contaminated Signals in LLM-Based Financial Forecasting via Membership Inference and Cross-Model Disagreement [0.0]
大規模言語モデル (LLM) は、金融アルファ信号を生成するためにますます使われている。証拠は、LLMがトレーニングコーパスから歴史的財務データを記憶し、急激な予測精度を生み出していることを示している。既存の方法では、リアルタイム取引のための実用的なゼロコスト信号レベルフィルタリングが提供されない。
論文参考訳（メタデータ） (2026-03-26T00:35:25Z)
ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。 ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文参考訳（メタデータ） (2025-12-01T09:44:31Z)
Larger Datasets Can Be Repeated More: A Theoretical Analysis of Multi-Epoch Scaling in Linear Regression [18.692159157168803]
本稿では,線形回帰学習における一般的な回避策,エポックトレーニング,リマプショントレーニングの理論的解析について述べる。我々は、データセットが成長しなければならない乗算因子として定義するデータのテキスト有効再利用率である$E(K, N)$を用いてこれを定量化する。以上の結果から,K$が$E(K, N)の近似値である最大$K$は,データサイズと分布に依存することが明らかとなった。
論文参考訳（メタデータ） (2025-11-17T14:34:03Z)
Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
Hard Negatives, Hard Lessons: Revisiting Training Data Quality for Robust Information Retrieval with LLMs [53.78110936809744]
堅牢で再帰的なモデルのトレーニングは通常、大規模なデータセットに依存します。トレーニングデータセットにおいて、偽陰性を識別し、許容する。トレーニングデータセットとコードは公開されています。
論文参考訳（メタデータ） (2025-05-22T17:47:57Z)
Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文参考訳（メタデータ） (2024-03-13T17:58:57Z)
From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文参考訳（メタデータ） (2023-08-08T19:52:28Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。