論文の概要: TEMPO: Temporal Enforcement via Mode-Separated Policy Optimization for Trustworthy LLM Backtesting
- arxiv url: http://arxiv.org/abs/2605.18843v1
- Date: Wed, 13 May 2026 05:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.660715
- Title: TEMPO: Temporal Enforcement via Mode-Separated Policy Optimization for Trustworthy LLM Backtesting
- Title(参考訳): TEMPO: 信頼できるLLMバックテストのためのモード分離ポリシー最適化による時間的強化
- Authors: Zeyu Zhang, Bradly C. Stadie,
- Abstract要約: 歴史的イベントにおいて大きな言語モデルをバックテストするには、特定のカットオフ日までに利用可能な情報のみを推論する必要がある。
モデルは、事前訓練から推論へ、明らかな正確さを膨らませ、評価の妥当性を損なうために、定期的にカットオフ後の知識をリークする。
本稿では,この規律を2つのコントリビューションを通じてトレーニングするTEMPOを提案する。リークモードがポストカット後の要求をゼロに駆動する2モード報酬と,時間的に有効な推論戦略をモデルが発見できるGRPOベースのトレーニングパイプラインである。
- 参考スコア(独自算出の注目度): 6.428238071336693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backtesting large language models on historical events requires reasoning exclusively from information available before a specified cutoff date. Yet models routinely leak post-cutoff knowledge from pre-training into their reasoning, inflating apparent accuracy and undermining evaluation validity. Prompt-based constraints fail when suppressed content is causally related to the prediction, and knowledge unlearning cannot address this problem because temporal compliance is instance-specific: the same fact may be legitimate evidence for one cutoff date and a violation for another. Rather than erasing knowledge, the model must learn temporal discipline: selecting evidence conditioned on each instance's cutoff date. We propose TEMPO (Temporal Enforcement via Mode-separated Policy Optimization), which trains this discipline via two contributions: (1) a two-mode reward where a leakage mode drives post-cutoff claims to zero as a hard prerequisite before a performance mode optimizes task performance; and (2) a GRPO-based training pipeline that enables the model to discover temporally valid reasoning strategies. We prove that training monotonically decreases leakage, converges to the leak-free optimum, and improves task performance once compliance is achieved. On three prediction tasks and two models, TEMPO reduces leakage from 2~13% to 0.6~3.7% across all conditions, with task performance improving 6~13% where strong pre-cutoff signals exist and maintained where the prediction task is inherently difficult from valid information alone.
- Abstract(参考訳): 歴史的イベントにおいて大きな言語モデルをバックテストするには、特定のカットオフ日までに利用可能な情報のみを推論する必要がある。
しかし、モデルは常に事前学習から推論に知識を漏らし、明らかな正確さを増し、評価の妥当性を損なう。
プロンプトに基づく制約は、抑制されたコンテンツが予測と因果関係にあるときに失敗し、学習されていない知識は、時間的コンプライアンスがインスタンス固有のものであるため、この問題に対処できない。
知識を消去するのではなく、モデルは時間的規律(各インスタンスのカットオフ日に条件付けられた証拠を選択する)を学ぶ必要がある。
本稿では,(1)リークモードがタスクパフォーマンスを最適化する前に,カットオフ後の要求をゼロにする2モードの報酬,(2)時間的に有効な推論戦略をモデルが発見できるGRPOベースのトレーニングパイプライン,という2つの貢献を通じて,この規律を訓練するTEMPOを提案する。
トレーニングが単調に漏れを減らし、漏れのない最適条件に収束し、コンプライアンスが達成されればタスク性能を向上させることを実証する。
3つの予測タスクと2つのモデルにおいて、TEMPOは全ての条件で2〜13%から0.6~3.7%まで漏れを減らし、タスク性能は6~13%向上し、強い事前遮断信号が存在し、予測タスクは有効な情報だけでは本質的に困難である。
関連論文リスト
- Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment [16.352863226512984]
テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、分散シフト下でのゼロショットロバスト性を高める。
ほとんどのメソッドは、スケーラビリティを制限し、リアルタイムデプロイメントを妨げるバックプロパゲーションや反復最適化に依存しています。
本稿では,Advanced Distribution-AwareとBack propagation-free Test-time Adapting法であるADAPTを提案する。
論文 参考訳(メタデータ) (2025-08-21T13:42:49Z) - Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。