論文の概要: Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.21347v2
- Date: Thu, 21 May 2026 16:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.919289
- Title: Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents
- Title(参考訳): インサイトジェネレータ:LLMエージェントの全身レベルトレース診断
- Authors: Akshay Manglik, Apaar Shanker, Kaustubh Deshpande, Jason Qin, Yash Maurya, Veronica Chatrath, Vijay S. Kalmath, Levi Lentz, Yuan, Xue,
- Abstract要約: 本稿では,多エージェントシステムである Insights Generator (IG) について述べる。
IGレポートを用いた人間の専門家は、修正されていないベースラインの足場上での足場性能を30.4pp向上させた。
IGのスカウト・インベスティゲータアーキテクチャは、検出カバレッジと競合するアプローチに匹敵する結果をもたらす。
- 参考スコア(独自算出の注目度): 4.316569498378906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagnosing failures in LLM agents remains largely manual. Practitioners inspect a small subset of execution traces, form ad-hoc hypotheses, and iterate. This process misses patterns that only emerge across trace populations and does not scale to production corpora where individual traces span tens of thousands of tokens. We formalize the problem of corpus-level trace diagnostics. Given a corpus of execution traces, the goal is to produce grounded natural-language insights that characterize systematic behavioral patterns across trace groups, each linked to supporting evidence. We present the Insights Generator (IG), a multi-agent system that answers diagnostic questions by proposing and testing hypotheses across the trace corpus to produce an evidence-backed insights report. We evaluate IG across qualitative and objective dimensions, spanning rubric-based report assessment and downstream performance improvements achieved by implementing IG insights. Human experts using IG reports improve scaffold performance by 30.4pp over the unmodified baseline scaffold, and coding agents leveraging IG-derived insights show consistent and stable gains. Across benchmarks, IG's scout-investigator architecture produces findings comparable in detection coverage to competing approaches, while domain experts rated IG reports as leading depth and evidence quality.
- Abstract(参考訳): LLMエージェントの故障の診断は、主に手作業で行われている。
実践者は、実行トレースの小さなサブセットを検査し、アドホックな仮説を形成し、反復する。
このプロセスは、微量の個体だけに現れるパターンを見逃し、個々の痕跡が数万のトークンにまたがる生産コーパスにスケールしない。
コーパスレベルのトレース診断の問題を定式化する。
実行トレースのコーパスが与えられた場合、目標は、トレースグループ全体にわたる体系的な行動パターンを特徴付ける、基礎的な自然言語の洞察を作り出すことであり、それぞれが証拠を裏付けることである。
本稿では,多エージェントシステムであるインサイトジェネレータ(IG)を提案する。このシステムでは,トレースコーパス全体にわたって仮説を提案し,検証することで,エビデンス支援によるインサイトレポートを生成する。
我々は,定性的および客観的な次元にわたるIGの評価を行い,IGインサイトの実装によって達成された,ルーブリックに基づくレポート評価とダウンストリーム性能の改善について検討した。
IGレポートを用いた人間の専門家は、修正されていないベースラインの足場よりも30.4ppの足場性能を向上し、IGに由来する洞察を活用するコーディングエージェントは、一貫性と安定したゲインを示している。
ベンチマーク全体を通じて、IGのスカウト・インベスティゲータアーキテクチャは、検出カバレッジにおいて競合するアプローチに匹敵する結果を生み出し、ドメインの専門家はIGレポートを最深度とエビデンスの品質として評価した。
関連論文リスト
- Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? [61.49434544687523]
本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。
REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。
私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
論文 参考訳(メタデータ) (2026-05-18T23:55:08Z) - NeuroTrace: Inference Provenance-Based Detection of Adversarial Examples [1.096626056612224]
Inference Provenance Graphs (IPGs) を用いた推論前駆体分析フレームワークであるNeuroTraceを紹介する。
IPGは、モデルの前方通過中にアクティベーション動作とパラメータ誘起データフローの両方をキャプチャする異種グラフである。
攻撃中, マルチアタック, クロススリート転送設定下での逆例検出のためのIPGベース検出器の評価を行った。
論文 参考訳(メタデータ) (2026-04-15T22:23:40Z) - Facet-Level Tracing of Evidence Uncertainty and Hallucination in RAG [8.18791900871137]
Retrieval-Augmented Generationは、検索された証拠の回答を根拠にして幻覚を減らすことを目的としている。
既存の評価は回答レベルの精度や通過レベルの正確さに重点を置いており、世代間の証拠の使用方法に関する限られた洞察を与えている。
本稿では、各入力質問を原子推論ファセットに分解するQAのためのファセットレベル診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-10T09:59:43Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis [14.027321451902734]
本稿では,UltrasoundAgentsと呼ばれる階層型マルチエージェントフレームワークを提案する。
メインエージェントは、全画像の病変をローカライズし、作物と動物園の操作をトリガーする。
サブエージェントは局所的な視点を分析し、エコー原性パターン、石灰化、境界タイプ、エッジ形態学の4つの臨床的特性を予測する。
メインエージェントは、これらの構造化属性を統合してエビデンスに基づく推論を行い、BI-RADSカテゴリと悪性度予測を出力し、レビュー可能な中間証拠を生成する。
論文 参考訳(メタデータ) (2026-03-11T15:03:52Z) - AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems [7.429835301272413]
フレームワークには15の障害検出ツールと2つの根本原因分析モジュールが含まれている。
軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。
我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
論文 参考訳(メタデータ) (2026-02-18T14:55:35Z) - LLM-Powered Text-Attributed Graph Anomaly Detection via Retrieval-Augmented Reasoning [20.426942100536003]
テキスト分散グラフ(TAG)の異常検出は、不正検出、侵入監視、誤情報解析などの応用において重要な役割を果たす。
本稿では,TAGのノード検出のための総合ベンチマークであるTAG-ADを紹介する。
本稿では,LLMに基づくゼロショット異常検出フレームワークであるRAG(Research-augmented Generation)を提案する。
論文 参考訳(メタデータ) (2025-11-16T05:21:14Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Unifying Unsupervised Graph-Level Anomaly Detection and Out-of-Distribution Detection: A Benchmark [73.58840254552656]
近年,非教師付きグラフレベルの異常検出(GLAD)と教師なしグラフレベルのアウト・オブ・ディストリビューション(OOD)検出が注目されている。
教師なしアンダーラインtextbfGraphレベルアンダーラインtextbfOOD と anomaunderlinetextbfLy underlinetextbfDetection (ourmethod) に対するアンダーラインtextbfUnifiedアンダーラインtextbffBenchmark を提案する。
私たちのベンチマークには35のデータセットが含まれています
論文 参考訳(メタデータ) (2024-06-21T04:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。