論文の概要: Monitoring Agentic Systems Before They're Reliable
- arxiv url: http://arxiv.org/abs/2606.02494v1
- Date: Mon, 01 Jun 2026 17:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.523795
- Title: Monitoring Agentic Systems Before They're Reliable
- Title(参考訳): エージェントシステムを信頼性のある状態に監視する
- Authors: Marisa Ferrara Boston, Glen Hanson, Effi Georgala, JD Hudgens, Heather Frase,
- Abstract要約: 運用に入るエージェントシステムは、通常、部分的に統合されたアセンブリとして機能し、構造上の欠陥はタスクレベルのエラーではなく、障害のランドスケープを支配します。
本稿では,エージェントシステム評価を3次元(品質,適合性,効率)に分割するモニタリング・トリアージ手法を提案する。
発見は、FMEAに適合した重度分類によってルートされ、調査を保証しているサブセットに人間の注意を集中させる。
- 参考スコア(独自算出の注目度): 0.7422381022274628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic systems entering production typically operate as partially integrated assemblies where structural defects, not task-level errors, dominate the failure landscape. At this maturity level, task-level error detection may be infeasible: structural failure modes mask the signal that task-level monitors are designed to detect.We present a monitoring and triage methodology that decomposes agentic system evaluation into three dimensions (quality, suitability, efficiency) at three monitoring scopes (within-run, cross-run, structural), using variance as a characterization signal. Findings are routed through severity classification adapted from FMEA, concentrating human attention on the subset that warrants investigation. We evaluate on a synthetic testbed of 220 runs across 120 document bundles with controlled error injection.Three results emerge. Monitor scope determines failure type: within-run monitors surface deterministic stage defects (CV = 0.02), cross-run monitors surface stochastic integration consequences (CV = 1.25, 24% at L2), and a structural monitor identifies an integration gap with perfect consistency (CV = 0.00). Injected task-level errors are indistinguishable from clean baselines, confirming structural defects mask task-level signal. Deterministic triage routes 97% of findings to automated tracking, leaving the 2% reflecting variable behavior for human investigation.We propose, on Stage 1 evidence, a maturity-staging model in which monitoring transitions from structural characterization to error detection to reliability tracking as integration defects resolve. The taxonomy, CV-based scope characterization, and severity model transfer architecturally to document-driven, multi-stage agentic workflows in regulated industries; specific calibrations are domain-specific. Deploy monitoring early: the first thing it finds is the most important thing to fix.
- Abstract(参考訳): 運用に入るエージェントシステムは、通常、部分的に統合されたアセンブリとして機能し、構造上の欠陥はタスクレベルのエラーではなく、障害のランドスケープを支配します。
この成熟度レベルでは、タスクレベルのエラー検出は不可能である: 構造的故障モードは、タスクレベルのモニターが検出するように設計された信号を隠蔽する。我々は、分散を特徴信号として、エージェントシステムの評価を3次元(品質、適合性、効率)に分解するモニタリングとトリアージ手法を提案する。
発見は、FMEAに適合した重度分類によってルートされ、調査を保証しているサブセットに人間の注意を集中させる。
我々は,120個の文書バンドルをまたいだ220回の合成テストベッドの評価を行い,その結果が得られた。
in-runは表面決定性ステージ欠陥(CV = 0.02)を監視し、cross-runは表面確率積分結果(CV = 1.25, 24% at L2)を監視し、構造的モニターは完全整合性のある積分ギャップ(CV = 0.00)を特定する。
挿入されたタスクレベルのエラーはクリーンベースラインと区別できず、構造欠陥がタスクレベルの信号を隠蔽する。
決定論的トリアージは, 自動追跡の97%をパスし, 2%は人間の調査の振る舞いを反映しており, ステージ1のエビデンスでは, 構造的特徴からエラー検出, 信頼性追跡への遷移を, 統合欠陥の解決とともに監視する成熟度安定モデルを提案する。
分類学、CVに基づくスコープ特性、重度モデルは、規制産業における文書駆動多段階のエージェントワークフローにアーキテクチャ的に移行する。
早期にデプロイする: 最初に見つかるのは、修正する上で最も重要なことです。
関連論文リスト
- FoodMonitor: Benchmarking MLLMs for Explainable Compliance Analysis [29.80090524705393]
FoodMonitorは、商用キッチン監視における説明可能なコンプライアンス分析のベンチマークである。
最高の性能モデルは0.360ドルC_textscore$でしか得られず、空間的局所化と細かいルール理解が主要なボトルネックとして現れる。
論文 参考訳(メタデータ) (2026-05-23T10:19:41Z) - Trace-Level Analysis of Information Contamination in Multi-Agent Systems [8.829951903444352]
不均一なアーティファクトに対する推論は、構造化エージェント内でますます発生する。
本研究では,不確実性を制御変数として扱うことにより,この現象を研究する。
我々は3つの表現型を特徴づける:サイレントセマンティックな腐敗、リカバリを伴う行動パターン、構造破壊と制御フローシグネチャの組み合わせ。
論文 参考訳(メタデータ) (2026-04-30T08:39:42Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - World Model Failure Classification and Anomaly Detection for Autonomous Inspection [23.48742973289626]
教師付き障害分類と異常検出を組み合わせたハイブリッドフレームワークを提案する。
我々のアプローチは、圧縮されたビデオ入力を持つ世界モデルバックボーンを使用する。
実験では、成功、失敗、およびOODケースの区別において90%以上の精度が示されている。
論文 参考訳(メタデータ) (2026-02-18T04:41:14Z) - Noise & pattern: identity-anchored Tikhonov regularization for robust structural anomaly detection [58.535473924035365]
異常検出は自動産業検査において重要な役割を担い、他の均一な視覚パターンの微妙な欠陥や稀な欠陥を識別することを目的としている。
自己教師型オートエンコーダを用いて, 破損した入力の修復を学習する構造的異常検出に取り組む。
構造欠陥を模倣した画像に人工的破壊を注入する汚職モデルを導入する。
論文 参考訳(メタデータ) (2025-11-10T15:48:50Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Dual-Mode Deep Anomaly Detection for Medical Manufacturing: Structural Similarity and Feature Distance [2.467339701756281]
本稿では,2つの注意誘導型オートエンコーダアーキテクチャを提案する。
1つ目は、軽量でリアルタイムな欠陥検出を可能にする構造的類似性に基づくスコアリングアプローチである。
第二に、Mahalanobis を用いた特徴距離ベースの戦略を、遅延特性の低減に応用する。
論文 参考訳(メタデータ) (2025-09-06T18:17:40Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - A Comparison of Residual-based Methods on Fault Detection [6.675805308519987]
本研究では,産業システムにおける欠陥検出のための残差に基づく2つのアプローチを比較した。
性能評価は, 健康指標構築, 断層検出, 健康指標解釈の3つの課題に焦点をあてる。
その結果、両モデルとも平均20サイクルの遅延で故障を検出でき、偽陽性率を低く維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-05T14:39:27Z) - Self-Supervised Masked Convolutional Transformer Block for Anomaly
Detection [122.4894940892536]
本稿では, 自己監督型マスク型畳み込み変圧器ブロック (SSMCTB) について述べる。
本研究では,従来の自己教師型予測畳み込み抑止ブロック(SSPCAB)を3次元マスク付き畳み込み層,チャンネルワイドアテンション用トランスフォーマー,およびハマーロスに基づく新たな自己教師型目標を用いて拡張する。
論文 参考訳(メタデータ) (2022-09-25T04:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。