論文の概要: Measuring the Unmeasurable: Markov Chain Reliability for LLM Agents
- arxiv url: http://arxiv.org/abs/2604.24579v1
- Date: Mon, 27 Apr 2026 15:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.109329
- Title: Measuring the Unmeasurable: Markov Chain Reliability for LLM Agents
- Title(参考訳): 測定不能性の測定:LLM剤のマルコフ鎖信頼性
- Authors: Phat T. Tran-Truong, Xuan-Bach Le,
- Abstract要約: エージェントの実行トレースをMarkovチェーンに適合させる再現可能なパイプラインである textscTraceToChain を提示する。
パイプラインは自動クラスタ分類を構築し、Laplace-smoothed maximum-likelihood Estimation (MLE) による遷移を推定し、複合的なAkaike Information criterion (AIC) と Kolmogorov-Smirnov (KS) に適合する。
結果として得られたファーストパスビューは、通常別々に報告されるメトリクスを再構成する: pass$$k$, pass$k$, and the reliability decay curve (RDC) is projections of one。
- 参考スコア(独自算出の注目度): 0.7161783472741748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents increasingly operate as sequential software systems, but their reliability is often summarized by scalar benchmark metrics. Metrics such as pass$@k$, pass$^k$, and the reliability decay curve (RDC) are useful summaries, but they do not identify the success-time distribution being estimated, test whether traces support that distribution, or quantify finite-trace uncertainty. We present \textsc{TraceToChain}, a reproducible pipeline that fits agent execution traces to an absorbing discrete-time Markov chain (DTMC), $\hat M=(\hat Q,\hat R_\oplus,\hat R_\ominus)$, with explicit diagnostics and uncertainty. The pipeline builds an automatic cluster taxonomy, estimates transitions with Laplace-smoothed maximum-likelihood estimation (MLE), checks fit with a composite Akaike information criterion (AIC) and Kolmogorov--Smirnov (KS) goodness-of-fit certificate, and reports Dirichlet-posterior credible intervals and non-parametric bootstrap intervals. We adapt classical reliability mathematics (Kemeny--Snell~\cite{kemenysnell}, Cheung~\cite{cheung1980}, Goel--Okumoto~\cite{goelokt}) to agent traces. The resulting first-passage view reconciles metrics usually reported separately: pass$@k$, pass$^k$, and the RDC are projections of one success-time distribution. On seven controlled MAST-style frameworks with a strict 50/50 fit/test protocol, held-out empirical RDCs overlay their analytic counterparts with max $L_\infty^{\mathrm{RDC}} = 0.053$ (median $0.048$). A two-sample KS test on the first-passage cumulative distribution function (CDF) accepts the fitted chain with $p>0.05$ on $7/7$ frameworks (min $p = 0.78$), and per-entry $95\%$ posterior and bootstrap intervals agree to $\approx\!0.01$ at the median.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、シーケンシャルなソフトウェアシステムとしてますます運用されるが、その信頼性はスカラーベンチマークメトリクスによって要約されることが多い。
パス$k$、パス$^k$、信頼性減衰曲線(RDC)などのメトリクスは有用な要約であるが、推定される成功時間分布を特定したり、その分布をサポートするかどうかを検証したり、有限トレースの不確かさを定量化したりすることはない。
エージェントの実行トレースを吸収する離散時間マルコフ連鎖(DTMC)、$\hat M=(\hat Q,\hat R_\oplus,\hat R_\ominus)$に適合させる再現可能なパイプラインである。
パイプラインは自動クラスタ分類を構築し、Laplace-smoothed maximum-likelihood Estimation (MLE) による遷移を推定し、複合赤池情報基準 (AIC) とコルモゴロフ-スミルノフ (KS) の適合性を検証し、Dirichlet-posterior 信頼区間と非パラメトリックブートストラップ間隔を報告する。
我々は古典的信頼性数学 (Kemeny--Snell~\cite{kemenysnell}, Cheung~\cite{cheung 1980}, Goel--Okumoto~\cite{goelokt}) をエージェントトレースに適用する。
pass$$k$, pass$^k$, and the RDC is projections of one success-time distribution。
厳格な50/50の適合/テストプロトコルを持つ7つのMASTスタイルのフレームワークでは、実証的なRCCは、最大$L_\infty^{\mathrm{RDC}} = 0.053$ (median $0.048$)で分析対象をオーバーレイする。
第1パス累積分布関数(CDF)上の2サンプルのKSテストでは、7/7$フレームワーク(min $p = 0.78$)上で$p>0.05$のアセットチェーンが受け入れられ、エントリあたり9,5\%の後方およびブートストラップ間隔は$\approx\!
中央値0.01ドル
関連論文リスト
- Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Hardware Validation of DAGI via a Modular "Ridge" Signature and High-Order Synergistic Information [0.0]
IBM Quantumハードウェア上でのDAGI(Directed Acyclic Graph Information)フレームワーク。
理想的な出力分布が低次元モジュラー多様体(リッジ)に制約される小さな制御された実験
キーリカバリはチャンスを超えた:ショット毎の精度0.1689(チャンス0.125,95% Wilson CI[0.1610, 0.1772])
これらの結果は、DAGIが非自明でハードウェアに耐性のある情報構造を検出し、定量化するという主張を支持する。
論文 参考訳(メタデータ) (2026-04-16T14:16:59Z) - Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations [49.702772230127465]
有限状態マルコフ鎖を$n$状態と遷移行列$P$で研究する。
すべての非退化モードが実周辺不変部分空間 $mathcalK(P)$ によってキャプチャされ、商空間 $mathbbRn/mathcalK(P) 上の誘導作用素が厳密に収縮し、ユニークな商解が得られることを示す。
論文 参考訳(メタデータ) (2026-01-31T02:57:01Z) - Spectral Sentinel: Scalable Byzantine-Robust Decentralized Federated Learning via Sketched Random Matrix Theory on Blockchain [0.0]
ビザンチンのクライアントは、不均一な(Non-IID)データの下での濃度勾配を中毒する。
本稿では,ビザンチン検出・集約フレームワークであるSpectral Sentinelを提案する。
Polygonネットワーク上でブロックチェーンを統合することで,完全なシステムを実現しています。
論文 参考訳(メタデータ) (2025-12-14T09:43:03Z) - The 4/$δ$ Bound: Designing Predictable LLM-Verifier Systems for Formal Method Guarantee [5.345468714252351]
この研究は LLM-Verifier Convergence Theorem の開発によってギャップを埋める。
LLMと検証器の相互作用を離散時間マルコフ連鎖としてモデル化する。
われわれはこの予測を90,000件以上の治験を含む広範囲な実証キャンペーンでストレステストした。
論文 参考訳(メタデータ) (2025-11-30T22:19:09Z) - Optimal Convergence Analysis of DDPM for General Distributions [11.155024379105788]
Denoising Diffusion Probabilistic Model (DDPM)は最も広く使われているサンプルの一つである。
DDPM試料の精密収束解析を行った。
我々の収束解析は、広範囲な対象分布に対して厳密であることを示す。
論文 参考訳(メタデータ) (2025-10-31T15:44:50Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。