論文の概要: Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers
- arxiv url: http://arxiv.org/abs/2606.04421v2
- Date: Sat, 06 Jun 2026 03:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.891011
- Title: Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers
- Title(参考訳): Trivium: Causal-Memory Controller のためのファーストクラスオブジェクトとしてのテンポラルレグレット
- Authors: Edward Y. Chang,
- Abstract要約: これは構造的な問題であり、単にモデルキャパシティの問題ではないと我々は主張する。
作業因果モデルに対する結果後悔と認識後悔とを併せ持つ一級目的として,長期的時間的後悔を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many current agentic systems and LLM pipelines correct mistakes by optimizing outcome reward. This addresses only the what of failure: when an outcome diverges from prediction, the why and when of the mismatch are not systematically logged, reviewed, or corrected, so the same error can recur episode after episode. We argue that this is a structural problem, not merely a model-capacity one. We propose long-horizon temporal regret as a first-class objective alongside outcome regret and epistemic regret over the working causal model. Temporal regret captures when failure persists: how long a miscalibrated causal model is tolerated before correction. Epistemic regret captures why failure persists: residual uncertainty or error in the working causal model. Together, the three regrets give a falsifiable account of what, why, and when a long-lived agent can fail. Modeling the agent as a stream of E episodes, we prove three conditional results under explicit causal-probing, persistence, and detectability assumptions. First, under observationally equivalent confounding, outcome-only learning cannot distinguish causal from spurious structure without an intervention channel, so temporal miscalibration can persist linearly even after outcome regret is driven to zero. Second, with a persistent causal log and budgeted probes, total probe complexity is logarithmic in the episode horizon, inducing O(log E) temporal regret. Third, under K detectable change-points, the rate extends to O(K log E). We instantiate Trivium and pre-register five falsifiable predictions. On CausalBench-Seq, Trivium follows the predicted logarithmic envelope while outcome-only baselines grow linearly. A pilot real-LLM stream provides preliminary external-validity evidence across one full E = 500 run and three E = 100 frontier-model pilots. Self-learning here means revising an external causal model, not retraining LLM weights.
- Abstract(参考訳): 現在のエージェントシステムやLLMパイプラインは、結果の報酬を最適化することで誤りを修正する。
結果が予測から分岐した場合、ミスマッチの理由と時期が体系的にログアップされず、レビューされ、あるいは修正されないため、エピソードの後に同じエラーが再発生する可能性がある。
これは構造的な問題であり、単にモデルキャパシティの問題ではないと我々は主張する。
作業因果モデルに対する結果後悔と認識後悔とを併せ持つ一級目的として,長期的時間的後悔を提案する。
一時的な後悔は、失敗が持続するときに捉えられる: 誤判定された因果関係のモデルが修正前に許容される期間。
エピステマティックな後悔は、なぜ失敗が持続するかを捉えている。
これら3つの後悔は、何、なぜ、そしていつ、長命のエージェントが失敗しうるのかをはっきり説明する。
The agent as a stream of E episodes, we prove three conditional results under explicit causal-probing, persistence, and detectability assumptions。
第一に、観察的に等価な条件下では、結果のみの学習では、介入チャネルなしでは因果関係が急激な構造と区別できないため、結果の後悔がゼロにされた後も、時間的誤校正は線形に継続することができる。
第2に、持続的な因果ログと予算化されたプローブにより、全プローブの複雑さはエピソード水平線における対数的であり、O(log E)時間的後悔を引き起こす。
第三に、K が検出可能な変化点の下では、速度は O(K log E) に延びる。
TriviumとPre-registerの5つの偽造予測をインスタンス化する。
CausalBench-Seqでは、Triviumは予測対数エンベロープに従い、結果のみのベースラインは線形に成長する。
パイロットのリアルLLMストリームは、1つの完全なE = 500ランと3つのE = 100フロンティアモデルパイロットにわたる予備的な外的妥当性の証拠を提供する。
ここでの自己学習とは、LLM重みをトレーニングするのではなく、外部因果モデルを変更することを意味する。
関連論文リスト
- Why LLMs Fail at Causal Discovery and How Interventional Agents Escape [2.7976995580303305]
因果発見は科学的な推論の基盤であるが、大きな言語モデルが確実にそれを実行することができるかどうかについては未解決のままである。
最近のベンチマークでは、単純な因果グラフ上で微調整されたモデルでさえ、複雑さが増大するにつれて劣化するが、なぜ失敗するのかは定まっていない。
教師付き微調整, 直接選好最適化, コンテキスト内学習はすべて, 類似した観測データを生成する因果グラフを区別できない予測子を生成する。
論文 参考訳(メタデータ) (2026-05-26T18:37:03Z) - Towards Counterfactual Explanation and Assertion Inference for CPS Debugging [0.0]
本稿では,サイバー物理システムのための実証的説明とアサーションに基づくキャラクタリゼーションフレームワークであるDeCaFを紹介する。
テスト入力がフェールすると、DeCaFは入力信号の反ファクト変化を生成し、テストが通過しないよう変換する。
提案手法は,3つの反事実生成器と2つの因果モデルを組み合わせて,成功の主張を推測する。
論文 参考訳(メタデータ) (2026-04-09T00:53:00Z) - Deep Doubly Debiased Longitudinal Effect Estimation with ICE G-Computation [13.1234934131475]
シーケンシャルな意思決定には縦断的治療効果の推定が不可欠であるが, 共同ファウンダーのフィードバックにより困難である。
D3-Netは,ICEトレーニングにおける誤りの伝播を軽減し,堅牢な最終補正を行うフレームワークである。
我々のモデルであるD3-Netは、異なる地平線、反事実、時間的差異の偏りと分散を頑健に低減します。
論文 参考訳(メタデータ) (2026-02-12T20:16:27Z) - Right for the Wrong Reasons: Epistemic Regret Minimization for Causal Rung Collapse in LLMs [0.0]
我々は,「間違った理由のために正しい」機械学習システムが,分散シフトの下で崩壊するショートカットによって高い性能を達成することを示す。
結果に基づく学習が正しい答えを補強すると、エージェントは欠陥のある推論に定着する。
本稿では,タスク成功とは無関係に因果推論における誤りをペナルティ化する信念修正の目的であるてんかんレグレト最小化(ERM)を提案する。
論文 参考訳(メタデータ) (2026-02-12T07:48:21Z) - "I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time [1.570719611178015]
大規模言語モデル(LLM)の推論失敗は通常、世代末にのみ測定されるが、プロセスレベルのブレークダウンとして多くの障害が現れる。
連続的なステップ分布シフト(JSD)と不確実性(エントロピー)を組み合わせた単純な不安定信号を定義する。
GSM8KとHotpotQA全体で、不安定性はAUCで間違った解を予測し、単調バケットレベルの精度を低下させる。
論文 参考訳(メタデータ) (2026-02-02T22:11:25Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - Are we certain it's anomalous? [57.729669157989235]
時系列における異常検出は、高度に非線形な時間的相関のため、異常は稀であるため、複雑なタスクである。
本稿では,異常検出(HypAD)におけるハイパボリック不確実性の新しい利用法を提案する。
HypADは自己指導で入力信号を再構築する。
論文 参考訳(メタデータ) (2022-11-16T21:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。