論文の概要: Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories
- arxiv url: http://arxiv.org/abs/2606.02060v2
- Date: Tue, 02 Jun 2026 10:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.550432
- Title: Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories
- Title(参考訳): ディープ・リサーチ・エージェントはどこで間違っているのか? エージェント・トラジェクトリにおけるスパン・レベルエラーの局在
- Authors: Jiaming Wang, Ziteng Feng, Jiangtao Wu, Ruihao Li, Qianqian Xie, Yuxiang Ren, He Zhu, Xueming Han, Fanyu Meng, Junlan Feng, Jiaheng Liu,
- Abstract要約: 最終回答に基づく評価は、エージェントが成功するかどうかを示すが、どの部分の軌道が答えを信頼できないかを示すものではない。
2つのエージェントフレームワーク、3つのバックボーンモデル、3つのベンチマークから2,790の実際のトラジェクトリを収集し、生ログをセマンティックスパンに変換し、エキスパートレビューを通じて有害なエラースパンを注釈付けします。
我々は,エージェントの主張を追跡するクレーム中心の監査フレームワークであるDRIFTを提案する。
- 参考スコア(独自算出の注目度): 51.22051230894794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep-research agents solve tasks through long trajectories of search, tool use, evidence inspection, and answer synthesis. Evaluation based on final answers shows whether an agent succeeds, but not which parts of the trajectory make the answer unreliable. We study span-level error localization for deep-research agents. We collect 2,790 real trajectories from two agent frameworks, three backbone models, and three benchmarks, convert raw logs into semantic spans, and annotate harmful error spans through LLM-assisted expert review. From these annotations, we build TELBench, a 1,000-instance benchmark for identifying error spans among normal exploration, failed searches, tentative hypotheses, and harmless noise. We further propose DRIFT, a claim-centric auditing framework that tracks agent claims, checks their support in trajectory evidence, and marks spans where unsupported or conflicting claims affect the answer path. Experiments across model families and auditing frameworks show that DRIFT improves span-level error localization and first-error accuracy by up to 30 percentage points. Our work provides a process-level view of reliability in deep-research agents.
- Abstract(参考訳): ディープリサーチエージェントは、検索、ツールの使用、エビデンス検査、および回答合成の長い軌跡を通じてタスクを解決する。
最終回答に基づく評価は、エージェントが成功するかどうかを示すが、どの部分の軌道が答えを信頼できないかを示すものではない。
ディープリサーチエージェントのスパンレベルエラーローカライゼーションについて検討する。
2つのエージェントフレームワーク、3つのバックボーンモデル、3つのベンチマークから2,790個の実際のトラジェクトリを収集し、生ログをセマンティックスパンに変換し、LLM支援の専門家レビューを通じて有害なエラースパンを注釈付けする。
これらのアノテーションから、通常の探索、探索の失敗、仮仮説、無害ノイズの誤差を識別するための1000インスタンスベンチマークであるTELBenchを構築した。
さらに,エージェントの主張を追跡するクレーム中心の監査フレームワークであるDRIFTを提案する。
モデルファミリと監査フレームワーク間の実験により、DRIFTはスパンレベルのエラーローカライゼーションとファーストエラー精度を最大30パーセント向上することが示された。
私たちの研究は、ディープリサーチエージェントにおける信頼性のプロセスレベルビューを提供します。
関連論文リスト
- RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations [51.43574078961796]
本稿では,SWE-Bench Verified上に構築された2段階評価スイートRepoMirageを紹介する。
RepoMirage-Perturbは、リポジトリレベルの摂動を保存する3つのタイプのセマンティクスを適用している。
RepoAnchorは、下流の問題解決からリポジトリの探索を分離する構造第一のプロトタイプワークフローである。
論文 参考訳(メタデータ) (2026-05-25T06:26:43Z) - BLAgent: Agentic RAG for File-Level Bug Localization [2.2917707112773593]
BLAgentはファイルレベルのバグローカライゼーションのための新しいエージェントRAGフレームワークである。
BLAgentは、オープンソースモデルで78%以上のTop-1精度を達成した。
BLAgentは、エンドツーエンドの修復の成功を20%以上改善する。
論文 参考訳(メタデータ) (2026-05-18T07:20:13Z) - Towards Self-Improving Error Diagnosis in Multi-Agent Systems [31.04613892300063]
セマンティック障害帰属のための自己改善フレームワークであるErrorProbeを紹介する。
ErrorProbeは、責任あるエージェントと発生したエラーステップを特定する。
検証されたエピソードメモリを維持しており、実行可能証拠によってエラーパターンが確認された場合にのみ更新される。
論文 参考訳(メタデータ) (2026-04-19T23:13:05Z) - HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help? [32.54022440678003]
コーディングエージェントは、完全なコンテキストが与えられたときに複雑なタスクを解決します。
現在のベンチマークは、この障害モードに盲目です。
我々はこの選択的エスカレーションスキルを測定するためにHiL-Benchを提案する。
論文 参考訳(メタデータ) (2026-04-10T15:21:44Z) - To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention [61.82680155643223]
我々は,不整合決定境界の根本原因を同定し,蓄積した情報が回答するのに十分であるかどうかをしきい値に判定する。
これにより、過剰探索(十分な知識にもかかわらず冗長探索)と過度探索(早期終了)が誤った答えをもたらす。
まず,境界誤差を識別する因果的介入に基づく診断手法を提案する。
第2に,Deep Search Agent(DAS)のための決定境界アライメントを開発する。
我々のDAS法はこれらの境界を効果的に校正し、オーバーサーチとアンダーサーチの両方を緩和し、精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-03T09:29:06Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。