論文の概要: Capable but Unreliable: Canonical Path Deviation as a Causal Mechanism of Agent Failure in Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2602.19008v1
- Date: Sun, 22 Feb 2026 02:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.441788
- Title: Capable but Unreliable: Canonical Path Deviation as a Causal Mechanism of Agent Failure in Long-Horizon Tasks
- Title(参考訳): 機能的だが信頼できない:長期作業におけるエージェント障害の因果メカニズムとしての正準経路偏差
- Authors: Wilson Y. Lee,
- Abstract要約: 信頼性障害の多くは、タスクの潜在解構造からのドリフトに起因するものであり、能力障害ではない、と我々は主張する。
我々は、モデル能力と作業難易度を維持できる自然実験を用いて、これを因果的に確立する。
- 参考スコア(独自算出の注目度): 0.38991526486631006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why do language agents fail on tasks they are capable of solving? We argue that many such failures are reliability failures caused by stochastic drift from a task's latent solution structure, not capability failures. Every well-defined tool-use task imposes a canonical solution path (i.e., a convergent set of tool invocations shared across successful runs) and agent success depends critically on whether a trajectory stays within this path's operating envelope. We establish this causally using a natural experiment that holds model capability and task difficulty fixed by construction. We analyze trajectories from the Toolathlon benchmark: 22 frontier models each attempt 108 real-world tool-use tasks across 3 independent runs, yielding 515 model$\times$task units where the same model succeeds on some runs and fails on others due to LLM sampling stochasticity alone. Within these units, successful runs adhere significantly more closely to the canonical solution path than failed runs ($+$0.060 Jaccard, $p<0.0001$, $n=488$ units, 95% CI [+0.043, +0.077]). This result survives six robustness checks including cross-model-family leave-one-out validation. Critically, the causal mechanism is gradual and self-reinforcing: the adherence gap is statistically indistinguishable from zero through the first 50% of the trajectory, ruling out early-branching selection bias, and each off-canonical tool call raises the probability that the next call is also off-canonical by 22.7 percentage points ($\hatβ=+0.227$, $p<0.0001$), more than doubling the baseline rate. These findings imply that agent reliability cannot be improved by capability scaling alone, but offer a highly actionable intervention: a simple monitor that restarts the bottom tercile of runs based on mid-trajectory canonical adherence lifts success rates by $+$8.8 percentage points among intervened runs.
- Abstract(参考訳): なぜ言語エージェントは、解決可能なタスクで失敗するのか?
このような障害の多くは、タスクの潜在解構造からの確率的ドリフトに起因する信頼性障害であり、能力障害ではない、と我々は主張する。
明確に定義されたツール使用タスクは、標準的なソリューションパス(つまり、成功した実行間で共有されるツール呼び出しの収束セット)を課し、エージェントの成功は、このパスの動作エンベロープ内に軌道が留まっているかどうかに批判的に依存する。
我々は、モデル能力と作業難易度を維持できる自然実験を用いて、これを因果的に確立する。
22のフロンティアモデルそれぞれが3つの独立したランで108の実際のツール使用タスクを試み、515のモデル$\times$taskユニットを生成し、同じモデルがいくつかのランで成功し、LLMサンプリング確率だけで失敗する。
これらのユニット内では、成功ランは失敗ランよりも標準ソリューションパスにかなり密着している(+0.060 Jaccard, $p<0.0001$, $n=488$ units, 95% CI [+0.043, +0.077])。
この結果は、クロスモデルファミリーのワンアウトバリデーションを含む6つの堅牢性チェックを生き残る。
因果的メカニズムは漸進的かつ自己強化的である: 付着ギャップは軌道の最初の50%を通してゼロから統計的に区別不能であり、早期分岐選択バイアスを排除し、各オフカノニカルツールコールは、ベースラインレートを2倍にするよりも22.7%のポイント(\hatβ=+0.227$, $p<0.0001$)で次の呼び出しがオフカノニカルである確率を高める。
これらの知見は、エージェントの信頼性は能力スケーリングだけでは改善できないが、非常に実用的な介入をもたらすことを示唆している: 中間軌跡の正準付着に基づくランの底段を再開する単純なモニターは、インターベンションされたランのうち、成功率を$8.8ポイント引き上げる。
関連論文リスト
- Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - The 4/$δ$ Bound: Designing Predictable LLM-Verifier Systems for Formal Method Guarantee [5.345468714252351]
この研究は LLM-Verifier Convergence Theorem の開発によってギャップを埋める。
LLMと検証器の相互作用を離散時間マルコフ連鎖としてモデル化する。
われわれはこの予測を90,000件以上の治験を含む広範囲な実証キャンペーンでストレステストした。
論文 参考訳(メタデータ) (2025-11-30T22:19:09Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering [0.0]
カオスエンジニアリングはレジリエンスのリスクを明らかにしますが、広く頻繁に実行するには高価で運用上のリスクがあります。
我々は、単純な接続のみのトポロジモデルにより、フェールストップフォールトの下で、高速で低リスクなアベイラビリティー推定を行うことができると主張している。
論文 参考訳(メタデータ) (2025-06-12T10:59:28Z) - SURE: A Visualized Failure Indexing Approach using Program Memory
Spectrum [2.4151044161696587]
本稿では,プログラムメモリスペクトルを用いたsualized failuRe indExingアプローチであるSUREを提案する。
まず、失敗したテストケースの実行中に、事前に設定されたブレークポイントで実行時のメモリ情報を収集する。
2つの障害のプロキシとして機能するPMSイメージの任意のペアは、トレーニングされたシームズ畳み込みニューラルネットワークに供給される。
論文 参考訳(メタデータ) (2023-10-19T02:04:35Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。