論文の概要: All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting
- arxiv url: http://arxiv.org/abs/2602.17234v1
- Date: Thu, 19 Feb 2026 10:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.91785
- Title: All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting
- Title(参考訳): 全リーク数, いくつかの数: LLMバックテストにおける解釈可能な一時汚染検出
- Authors: Zeyu Zhang, Ryan Chen, Bradly C. Stadie,
- Abstract要約: この時間的知識漏洩を検出し定量化するクレームレベルフレームワークを提案する。
提案手法はモデル論理を原子的クレームに分解し,時間的検証可能性によって分類し,各クレームの予測への寄与を測定するためにtextitShapley値を適用する。
TimeSPECはタスクパフォーマンスを保ちながらShapley-DCLRを削減し、明示的で解釈可能なクレームレベルの検証は、信頼できるバックテストのためのプロンプトベースの時間的制約よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 5.719582970287213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To evaluate whether LLMs can accurately predict future events, we need the ability to \textit{backtest} them on events that have already resolved. This requires models to reason only with information available at a specified past date. Yet LLMs may inadvertently leak post-cutoff knowledge encoded during training, undermining the validity of retrospective evaluation. We introduce a claim-level framework for detecting and quantifying this \emph{temporal knowledge leakage}. Our approach decomposes model rationales into atomic claims and categorizes them by temporal verifiability, then applies \textit{Shapley values} to measure each claim's contribution to the prediction. This yields the \textbf{Shapley}-weighted \textbf{D}ecision-\textbf{C}ritical \textbf{L}eakage \textbf{R}ate (\textbf{Shapley-DCLR}), an interpretable metric that captures what fraction of decision-driving reasoning derives from leaked information. Building on this framework, we propose \textbf{Time}-\textbf{S}upervised \textbf{P}rediction with \textbf{E}xtracted \textbf{C}laims (\textbf{TimeSPEC}), which interleaves generation with claim verification and regeneration to proactively filter temporal contamination -- producing predictions where every supporting claim can be traced to sources available before the cutoff date. Experiments on 350 instances spanning U.S. Supreme Court case prediction, NBA salary estimation, and stock return ranking reveal substantial leakage in standard prompting baselines. TimeSPEC reduces Shapley-DCLR while preserving task performance, demonstrating that explicit, interpretable claim-level verification outperforms prompt-based temporal constraints for reliable backtesting.
- Abstract(参考訳): LLMが将来のイベントを正確に予測できるかどうかを評価するには、すでに解決済みのイベントに対してtextit{backtest} を指定する必要がある。
これは、特定の過去の日に利用可能な情報のみを推論するモデルを必要とする。
しかし、LCMはトレーニング中に符号化されたカットオフ後の知識を不注意に漏らし、レトロスペクティブの評価の有効性を損なう可能性がある。
本稿では,このemph{temporal knowledge leakage}の検出と定量化のためのクレームレベルフレームワークを提案する。
提案手法は, モデル論理を原子的クレームに分解し, 時間的検証可能性で分類し, それぞれのクレームの予測への寄与を測るために textit{Shapley value} を適用した。
これは、漏洩情報から決定駆動推論の何分を抽出する解釈可能な計量である \textbf{Shapley}-weighted \textbf{D}ecision-\textbf{C}ritical \textbf{L}eakage \textbf{R}ate (\textbf{Shapley-DCLR})を得る。
このフレームワーク上に構築した \textbf{Time}-\textbf{S}upervised \textbf{P}rediction with \textbf{E}xtracted \textbf{C}laims (\textbf{TimeSPEC}) を提案する。
350件の実験は、合衆国最高裁判所の判例予測、NBAの給与推定、およびストックリターンランキングにまたがる。
TimeSPECはタスクパフォーマンスを保ちながらShapley-DCLRを削減し、明示的で解釈可能なクレームレベルの検証は、信頼できるバックテストのためのプロンプトベースの時間的制約よりも優れていることを示した。
関連論文リスト
- Teaching LLMs to Ask: Self-Querying Category-Theoretic Planning for Under-Specified Reasoning [1.8055130471307603]
大きな言語モデルによる推論時間プランニングは、部分的な可観測性の下で頻繁に失敗する。
textbfSelf-Querying Bidirectional Categorical Planning (SQ-BCP)を導入する。
検証が成功し、厳しい制約が決定論的チェックをパスした場合、承認された計画が目標要件と互換性があることを証明する。
論文 参考訳(メタデータ) (2026-01-27T19:41:10Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs [31.64130018833542]
大規模言語モデル(LLM)は時間的予測に広く用いられているが、事前学習データへの依存は汚染の懸念を引き起こす。
LLMにおける初期の知識遮断をシミュレートする能力について検討する。
以上の結果から, 即時的知識カットオフは, その日以降の情報を直接クエリした場合の有効性を示すが, 忘れた内容が直接問い合わせられるのではなく, 慎重にクエリに関連付けられている場合, 忘れることの誘発に苦慮していることが示された。
論文 参考訳(メタデータ) (2025-09-26T20:37:44Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.948099229475265]
大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。
時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。
本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文 参考訳(メタデータ) (2025-05-26T05:39:57Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。