論文の概要: Why Retrying Fails: Context Contamination in LLM Agent Pipelines
- arxiv url: http://arxiv.org/abs/2605.08563v1
- Date: Fri, 08 May 2026 23:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.740278
- Title: Why Retrying Fails: Context Contamination in LLM Agent Pipelines
- Title(参考訳): 障害回復の理由: LLM エージェントパイプラインにおけるコンテキスト汚染
- Authors: Zhanfu Yang,
- Abstract要約: コンテキスト汚染リスタートモデルを導入する。
汚染されたコンテキストで動作するTツールコールステップのチェーンである。
このモデルでは、5つの主要な結果が導出されます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an LLM agent fails a multi-step tool-augmented task and retries, the failed attempt typically remains in its context window -- contaminating the next attempt and elevating the per-step error rate beyond the base level. This context-contaminated restart phenomenon is widely observed in practice yet entirely lacks formal treatment. We introduce the Context-Contaminated Restart Model (CCRM): a chain of T tool-call steps, each failing with base rate epsilon_0; after any failed attempt, the subsequent attempt operates in contaminated context with elevated error rate epsilon_1 > epsilon_0. Under this model we derive five main results. (R1) An exact closed-form formula for P(succeed in at most K attempts). (R2) A cascade-overhead theorem giving the additional attempts Delta K incurred by contamination versus the clean-restart baseline. (R3) An optimal budget-allocation theorem identifying the pipeline depth T* that maximises success probability for a fixed total budget B=KT; we prove the closed form T* = sqrt(B * log(1/(1-epsilon_1)) / log(1/(1-epsilon_0))), with K*=B/T*. (R4) An information-theoretic lower bound via Le Cam's method showing K_CCRM is tight up to O(1). (R5) A clean-restart dominance theorem quantifying the exact benefit of context-clearing before retry. We validate CCRM on real SWE-bench Verified data: the IID model overestimates pass@3 by 17.4 percentage points (98.6% vs. 81.2%), while CCRM fits with error less than 0.001, implying a cascade ratio of epsilon_1/epsilon_0 = 7.1. Monte Carlo experiments confirm all theoretical predictions.
- Abstract(参考訳): LLMエージェントがマルチステップのツール拡張タスクとリトライをフェールした場合、失敗した試みは通常、そのコンテキストウィンドウに留まる -- 次の試みを汚染し、ベースレベルを越えてステップ単位のエラー率を上昇させる。
この文脈で汚染された再起動現象は、実際には広く観察されているが、正式な治療が完全に欠如している。
本稿では,T ツールコールステップのチェーンである Context-Contaminated Restart Model (CCRM) を紹介し,それぞれがベースレート epsilon_0 に失敗し,失敗した後,次の試みはエラーレート epsilon_1 > epsilon_0 で汚染されたコンテキストで動作する。
このモデルでは、5つの主要な結果が導出されます。
(R1)
P の正確な閉形式公式(少なくとも K 個の試行において得られる)。
(R2)
デルタKが汚染によって引き起こされた、クリーン・リスタートベースラインに対する追加の試みを与えるカスケード・オーバーヘッドの定理。
(R3)
K* = sqrt(B * log(1/(1-epsilon_1)) / log(1/(1-epsilon_0)) を K* = B/T* で証明する。
(R4)
K_CCRMを示すル・カム法による情報理論下限は、O(1)まで厳密である。
(R5)
クリーンリスタート支配定理は、再試行の前にコンテキストクリーニングの正確な利点を定量化する。
IIDモデルはpass@3を17.4ポイント過大評価(98.6%対81.2%)し、CCRMは0.001未満の誤差に適合し、epsilon_1/epsilon_0 = 7.1のカスケード比を示す。
モンテカルロの実験は全ての理論的予測を裏付ける。
関連論文リスト
- Cross-Context Verification: Hierarchical Detection of Benchmark Contamination through Session-Isolated Analysis [0.0]
Cross-Context Verification (CCV) は、N個の独立したセッションで同じベンチマーク問題を解決するブラックボックス方式である。
9つのSWE分岐検証問題(45の試験、クロードオプス4.6、温度0)では、CCVは汚染されたものと真の推論との間の完全な分離を達成する。
論文 参考訳(メタデータ) (2026-03-23T00:18:34Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Theoretical Foundations of Latent Posterior Factors: Formal Guarantees for Multi-Evidence Reasoning [0.0]
Latent Posterior Factors (LPF) は確率的予測タスクにおいて複数の異種証拠を集約するための原則的枠組みである。
LPFは各エビデンス項目を変分オートエンコーダを介してガウス潜在後部へエンコードし、後部をモンテカルロを経由してソフトファクタに変換し、正確なSum-Product Network Inference (LPF-PN) を介して集約する。
すべてのアグリゲータは、最大4,200のトレーニング例にまたがるデータセットに対して、経験的に検証されている。
論文 参考訳(メタデータ) (2026-03-13T17:44:14Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。