論文の概要: Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol
- arxiv url: http://arxiv.org/abs/2602.13320v1
- Date: Tue, 10 Feb 2026 21:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.912679
- Title: Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol
- Title(参考訳): LLMエージェントにおける情報忠実度:モデルコンテキストプロトコルのMartingale解析
- Authors: Flint Xiaofeng Fan, Cheston Tan, Roger Wattenhofer, Yew-Soon Ong,
- Abstract要約: モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
- 参考スコア(独自算出の注目度): 69.11739400975445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI agents powered by large language models (LLMs) increasingly use external tools for high-stakes decisions, a critical reliability question arises: how do errors propagate across sequential tool calls? We introduce the first theoretical framework for analyzing error accumulation in Model Context Protocol (MCP) agents, proving that cumulative distortion exhibits linear growth and high-probability deviations bounded by $O(\sqrt{T})$. This concentration property ensures predictable system behavior and rules out exponential failure modes. We develop a hybrid distortion metric combining discrete fact matching with continuous semantic similarity, then establish martingale concentration bounds on error propagation through sequential tool interactions. Experiments across Qwen2-7B, Llama-3-8B, and Mistral-7B validate our theoretical predictions, showing empirical distortion tracks the linear trend with deviations consistently within $O(\sqrt{T})$ envelopes. Key findings include: semantic weighting reduces distortion by 80\%, and periodic re-grounding approximately every 9 steps suffices for error control. We translate these concentration guarantees into actionable deployment principles for trustworthy agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)をベースとするAIエージェントが、高度な意思決定に外部ツールをますます利用しているため、重要な信頼性の問題が発生する。
モデルコンテキストプロトコル(MCP)のエージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを導入し、累積歪みが線形成長を示し、$O(\sqrt{T})$で有界な高確率偏差を示すことを示した。
この濃度特性は予測可能なシステムの挙動を保証し、指数的障害モードを除外する。
離散的な事実マッチングと連続的な意味的類似性を組み合わせたハイブリッド歪み測定法を開発し, 逐次ツール間相互作用による誤り伝播に対するマーチンゲール濃度境界を確立する。
Qwen2-7B, Llama-3-8B, Mistral-7B にまたがる実験では, 経験的歪みが線形傾向をトラックし, 常に$O(\sqrt{T})$エンベロープ内に偏差があることを示した。
主な発見は、意味重み付けは歪みを80 %減らし、周期的再接地は、エラー制御のために約9つのステップで十分である。
これらの濃度保証を、信頼できるエージェントシステムのための実用的なデプロイメント原則に変換する。
関連論文リスト
- Beyond Confidence: The Rhythms of Reasoning in Generative Models [16.58205184223738]
大きな言語モデル(LLM)は、わずかに入力コンテキストの変化に対する感度に悩まされ、信頼性を損なうという印象的な能力を示す。
我々は,LLMが耐えうる最大内部状態を,その支配的な次トーケン予測が大幅に変化する前に定量化する新しい計量であるToken Constraint Bound(_mathrmTCB$)を紹介する。
実験の結果, 実効的なプロンプトエンジニアリングと相関し, 文脈内学習やテキスト生成において, 難易度に欠ける致命的な予測不安定性を明らかにすることができた。
論文 参考訳(メタデータ) (2026-02-11T12:58:23Z) - Generation Order and Parallel Decoding in Masked Diffusion Models: An Information-Theoretic Perspective [16.942478643768144]
Masked Diffusion Models (MDMs) は、逐次決定論のトレードオフによって推論を著しく加速する。
我々は,2つの障害源である順序感度と並列化バイアスを分離し,解析するための統合情報理論フレームワークを提供する。
論文 参考訳(メタデータ) (2026-01-30T20:15:18Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting [44.23640219583819]
強化ファインチューニング(Reinforced Fine-Tuning, SFT)はドメイン適応の標準パラダイムである。
本稿では,この問題を解決するためにエントロピー適応ファインチューニング(EAFT)を提案する。
EAFTは標準SFTの下流性能と一貫して一致し、汎用能力の劣化を著しく軽減する。
論文 参考訳(メタデータ) (2026-01-05T14:28:17Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Generalization Bounds in the Presence of Outliers: a Median-of-Means
Study [8.905677748354364]
Median-of-Means (MoM) は平方可積分 r.v.$Z$ の平均$theta$ の推定量である。
ヘビーテールのデータに対する高い信頼性のおかげで、MoMは機械学習に様々な応用を見出した。
新たな作業ラインは、MoMが破損したデータに対処する能力を特徴付け、活用しようとしている。
論文 参考訳(メタデータ) (2020-06-09T13:21:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。