論文の概要: Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance
- arxiv url: http://arxiv.org/abs/2603.27343v1
- Date: Sat, 28 Mar 2026 17:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.913224
- Title: Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance
- Title(参考訳): 完了を超えて: LLMエージェントのパフォーマンスを予測するための累積状態追跡を提案する
- Authors: Dengzhe Hou, Lingyu Jiang, Deng Li, Zirui Li, Fangzhou Lin, Kazunori D Yamada,
- Abstract要約: WMF-AM(Working Memory Fidelity-Active Manipulation)を紹介する。
その結果,20種類のオープンウェイトモデル (0.5B-35B, 13ファミリー) で10タスク・エージェント・バッテリを発売した。
- 参考スコア(独自算出の注目度): 9.771590610969918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-completion rate is the standard proxy for LLM agent capability, but models with identical completion scores can differ substantially in their ability to track intermediate state. We introduce Working Memory Fidelity-Active Manipulation (WMF-AM), a calibrated no-scratchpad probe of cumulative arithmetic state tracking, and evaluate it on 20 open-weight models (0.5B-35B, 13 families) against a released deterministic 10-task agent battery. In a pre-specified, Bonferroni-corrected analysis, WMF-AM predicts agent performance with Kendall's tau = 0.612 (p < 0.001, 95% CI [0.360, 0.814]); exploratory partial-tau analyses suggest this signal persists after controlling for completion score and model scale. Three construct-isolation ablations (K = 1 control, non-arithmetic ceiling, yoked cancellation) support the interpretation that cumulative state tracking under load, rather than single-step arithmetic or entity tracking alone, is the primary difficulty source. K-calibration keeps the probe in a discriminative range where prior fixed-depth benchmarks become non-discriminative; generalization beyond this open-weight sample remains open.
- Abstract(参考訳): タスク完了率(Task-completion rate)はLLMエージェントの標準的なプロキシであるが、同じ完了スコアを持つモデルは中間状態を追跡する能力において大きく異なる可能性がある。
WMF-AM(Working Memory Fidelity-Active Manipulation)は、累積演算状態追跡のキャリブレーションされたノースクラッチパッドプローブである。
事前に特定されたボンフェロニ補正分析では、WMF-AMはケンドールのタウ=0.612(p < 0.001, 95% CI [0.360, 0.814])でエージェント性能を予測する。
コンストラクト・アイソレーション(K = 1 制御、非算術的天井、ヨードキャンセル)は、単段階算術やエンティティ・トラッキングのみではなく、負荷下での累積状態トラッキングが主要な困難源である、という解釈を支持する。
K-キャリブレーションは、前の固定深度ベンチマークが非差別的になるような判別範囲でプローブを保ち、このオープンウェイトサンプル以外の一般化は未解決のままである。
関連論文リスト
- FoMo X: Modular Explainability Signals for Outlier Detection Foundation Models [2.5907878968029285]
本稿では,FoMo-Xについて紹介する。FoMo-Xは,Prior-Data Fitted Networksに本質的で軽量な診断機能を提供するモジュールフレームワークである。
FoMo-Xは補助的な診断ヘッドを埋め込みに取り付け、バックボーンの前に同じ生成シミュレータを使ってオフラインでトレーニングする。
私たちは、FoMo-Xを2つの新しいヘッドでインスタンス化する: 解釈可能なリスク層への偏差を識別する重大性ヘッドと、信頼度を提供する不確実性ヘッド。
論文 参考訳(メタデータ) (2026-03-18T10:22:51Z) - Fundamental Limits of Black-Box Safety Evaluation: Information-Theoretic and Computational Barriers from Latent Context Conditioning [1.9290392443571385]
AIシステムのブラックボックス安全性評価では、テストディストリビューションのモデル動作がデプロイメントのパフォーマンスを確実に予測していると仮定する。
我々は、この仮定を、潜伏した文脈条件のポリシーによって定式化し、挑戦する。
ブラックボックス評価者が配置リスクを確実に見積もることができないという基本的な制限を確立します。
論文 参考訳(メタデータ) (2026-02-19T01:03:11Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。