論文の概要: All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting
- arxiv url: http://arxiv.org/abs/2602.17234v1
- Date: Thu, 19 Feb 2026 10:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.91785
- Title: All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting
- Title(参考訳): 全リーク数, いくつかの数: LLMバックテストにおける解釈可能な一時汚染検出
- Authors: Zeyu Zhang, Ryan Chen, Bradly C. Stadie,
- Abstract要約: この時間的知識漏洩を検出し定量化するクレームレベルフレームワークを提案する。
提案手法はモデル論理を原子的クレームに分解し,時間的検証可能性によって分類し,各クレームの予測への寄与を測定するためにtextitShapley値を適用する。
TimeSPECはタスクパフォーマンスを保ちながらShapley-DCLRを削減し、明示的で解釈可能なクレームレベルの検証は、信頼できるバックテストのためのプロンプトベースの時間的制約よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 5.719582970287213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To evaluate whether LLMs can accurately predict future events, we need the ability to \textit{backtest} them on events that have already resolved. This requires models to reason only with information available at a specified past date. Yet LLMs may inadvertently leak post-cutoff knowledge encoded during training, undermining the validity of retrospective evaluation. We introduce a claim-level framework for detecting and quantifying this \emph{temporal knowledge leakage}. Our approach decomposes model rationales into atomic claims and categorizes them by temporal verifiability, then applies \textit{Shapley values} to measure each claim's contribution to the prediction. This yields the \textbf{Shapley}-weighted \textbf{D}ecision-\textbf{C}ritical \textbf{L}eakage \textbf{R}ate (\textbf{Shapley-DCLR}), an interpretable metric that captures what fraction of decision-driving reasoning derives from leaked information. Building on this framework, we propose \textbf{Time}-\textbf{S}upervised \textbf{P}rediction with \textbf{E}xtracted \textbf{C}laims (\textbf{TimeSPEC}), which interleaves generation with claim verification and regeneration to proactively filter temporal contamination -- producing predictions where every supporting claim can be traced to sources available before the cutoff date. Experiments on 350 instances spanning U.S. Supreme Court case prediction, NBA salary estimation, and stock return ranking reveal substantial leakage in standard prompting baselines. TimeSPEC reduces Shapley-DCLR while preserving task performance, demonstrating that explicit, interpretable claim-level verification outperforms prompt-based temporal constraints for reliable backtesting.
- Abstract(参考訳): LLMが将来のイベントを正確に予測できるかどうかを評価するには、すでに解決済みのイベントに対してtextit{backtest} を指定する必要がある。
これは、特定の過去の日に利用可能な情報のみを推論するモデルを必要とする。
しかし、LCMはトレーニング中に符号化されたカットオフ後の知識を不注意に漏らし、レトロスペクティブの評価の有効性を損なう可能性がある。
本稿では,このemph{temporal knowledge leakage}の検出と定量化のためのクレームレベルフレームワークを提案する。
提案手法は, モデル論理を原子的クレームに分解し, 時間的検証可能性で分類し, それぞれのクレームの予測への寄与を測るために textit{Shapley value} を適用した。
これは、漏洩情報から決定駆動推論の何分を抽出する解釈可能な計量である \textbf{Shapley}-weighted \textbf{D}ecision-\textbf{C}ritical \textbf{L}eakage \textbf{R}ate (\textbf{Shapley-DCLR})を得る。
このフレームワーク上に構築した \textbf{Time}-\textbf{S}upervised \textbf{P}rediction with \textbf{E}xtracted \textbf{C}laims (\textbf{TimeSPEC}) を提案する。
350件の実験は、合衆国最高裁判所の判例予測、NBAの給与推定、およびストックリターンランキングにまたがる。
TimeSPECはタスクパフォーマンスを保ちながらShapley-DCLRを削減し、明示的で解釈可能なクレームレベルの検証は、信頼できるバックテストのためのプロンプトベースの時間的制約よりも優れていることを示した。
関連論文リスト
- Teaching LLMs to Ask: Self-Querying Category-Theoretic Planning for Under-Specified Reasoning [1.8055130471307603]
大きな言語モデルによる推論時間プランニングは、部分的な可観測性の下で頻繁に失敗する。
textbfSelf-Querying Bidirectional Categorical Planning (SQ-BCP)を導入する。
検証が成功し、厳しい制約が決定論的チェックをパスした場合、承認された計画が目標要件と互換性があることを証明する。
論文 参考訳(メタデータ) (2026-01-27T19:41:10Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models [0.0]
大規模言語モデル(LLM)は、特定の時間的カットオフまでのテキストデータに基づいて事前訓練される。
LLMは必然的に時代遅れのタイムセンシティブな情報を推論タスク中に一般的な知識とブレンドすることができる。
論文 参考訳(メタデータ) (2025-11-15T09:08:10Z) - DistDF: Time-Series Forecasting Needs Joint-Distribution Wasserstein Alignment [92.70019102733453]
トレーニング時系列予測モデルは、モデル予測の条件分布とラベルシーケンスの条件分布の整合性を必要とする。
本研究では,条件予測とラベル分布との差を最小限に抑えてアライメントを実現するDistDFを提案する。
論文 参考訳(メタデータ) (2025-10-28T16:09:59Z) - ResCP: Reservoir Conformal Prediction for Time Series Forecasting [39.81023599249223]
コンフォーマル予測は、交換可能なデータに対して、分散のない予測間隔を構築するための強力なフレームワークを提供する。
本稿では,Reservoir Conformal Prediction (ResCP)を提案する。
論文 参考訳(メタデータ) (2025-10-06T17:37:44Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs [31.64130018833542]
大規模言語モデル(LLM)は時間的予測に広く用いられているが、事前学習データへの依存は汚染の懸念を引き起こす。
LLMにおける初期の知識遮断をシミュレートする能力について検討する。
以上の結果から, 即時的知識カットオフは, その日以降の情報を直接クエリした場合の有効性を示すが, 忘れた内容が直接問い合わせられるのではなく, 慎重にクエリに関連付けられている場合, 忘れることの誘発に苦慮していることが示された。
論文 参考訳(メタデータ) (2025-09-26T20:37:44Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.948099229475265]
大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。
時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。
本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文 参考訳(メタデータ) (2025-05-26T05:39:57Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - Extracting or Guessing? Improving Faithfulness of Event Temporal
Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。
第1の視点は、文脈記述に基づいて真に抽出することである。
第2の視点は、適切な不確実性評価を提供することである。
論文 参考訳(メタデータ) (2022-10-10T19:53:13Z) - Retrieval Based Time Series Forecasting [37.48394754614059]
時系列データは、スマートトランスポートや環境モニタリングなど、さまざまなアプリケーションに現れる。
時系列解析の基本的な問題の1つは時系列予測である。
理論的にも実証的にも,関連する時系列を参照として検索することで,不確実性を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2022-09-27T16:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。