論文の概要: Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2509.00115v1
- Date: Thu, 28 Aug 2025 15:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.09179
- Title: Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems
- Title(参考訳): エージェントAIシステムの適応モニタリングと実世界評価
- Authors: Manish Shukla,
- Abstract要約: マルチエージェント人工知能システムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
- 参考スコア(独自算出の注目度): 3.215065407261898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic artificial intelligence (AI) -- multi-agent systems that combine large language models with external tools and autonomous planning -- are rapidly transitioning from research laboratories into high-stakes domains. Our earlier "Basic" paper introduced a five-axis framework and proposed preliminary metrics such as goal drift and harm reduction but did not provide an algorithmic instantiation or empirical evidence. This "Advanced" sequel fills that gap. First, we revisit recent benchmarks and industrial deployments to show that technical metrics still dominate evaluations: a systematic review of 84 papers from 2023--2025 found that 83% report capability metrics while only 30% consider human-centred or economic axes [2]. Second, we formalise an Adaptive Multi-Dimensional Monitoring (AMDM) algorithm that normalises heterogeneous metrics, applies per-axis exponentially weighted moving-average thresholds and performs joint anomaly detection via the Mahalanobis distance. Third, we conduct simulations and real-world experiments. AMDM cuts anomaly-detection latency from 12.3 s to 5.6 s on simulated goal drift and reduces false-positive rates from 4.5% to 0.9% compared with static thresholds. We present a comparison table and ROC/PR curves, and we reanalyse case studies to surface missing metrics. Code, data and a reproducibility checklist accompany this paper to facilitate replication.
- Abstract(参考訳): エージェント人工知能(AI) — 大規模な言語モデルと外部ツールと自律計画を組み合わせたマルチエージェントシステム — は、研究機関からハイテイクドメインへと急速に移行している。
以前の"Basic"論文では5軸フレームワークを導入し,目標ドリフトや害軽減といった予備的指標を提案したが,アルゴリズム的なインスタンス化や実証的な証拠は得られなかった。
この「先進的な」続編はそのギャップを埋めます。
2023年から2025年までの84の論文の体系的なレビューでは、83%が能力指標を報告し、30%だけが人間中心または経済軸を考慮していることがわかった。
第2に、不均一なメトリクスを正規化し、軸あたりの指数的に重み付けされた移動平均閾値を適用し、マハラノビス距離を介して関節異常検出を行う適応多次元モニタリング(AMDM)アルゴリズムを定式化する。
第3に,シミュレーションと実世界の実験を行う。
AMDMは、シミュレーションされたゴールドリフトで異常検出遅延を12.3秒から5.6秒に削減し、静的しきい値と比較して偽陽性率を4.5%から0.9%に下げる。
比較表とROC/PR曲線を提示し、ケーススタディを再解析し、欠落した指標を抽出する。
コード、データ、再現性チェックリストは、複製を容易にするためにこの論文に付随する。
関連論文リスト
- Systematic Review: Anomaly Detection in Connected and Autonomous Vehicles [0.0]
この系統的なレビューは、連結車両と自律車両の異常検出に焦点を当てている。
異常検出に最もよく使用される人工知能(AI)アルゴリズムは、LSTM、CNN、オートエンコーダなどのニューラルネットワークと1クラスのSVMである。
自動車への異常検出の展開を調査し,道路上での性能評価を行うためには,今後の研究が必要である。
論文 参考訳(メタデータ) (2024-05-04T18:31:38Z) - Anomaly Detection for Incident Response at Scale [1.284857579394658]
我々は、Walmartのビジネスとシステムの状態をリアルタイムで監視する、機械学習ベースの異常検出製品を提案する。
3ヶ月にわたる検証の間、製品は3000以上のモデルから25以上のアプリケーション、プラットフォーム、運用チームへの予測を提供した。
AIDRは、検出にかかる時間が少なく、従来の方法よりも偽陽性が少ない、さまざまな社内チームで成功している。
論文 参考訳(メタデータ) (2024-04-24T00:46:19Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - A Study of Unsupervised Evaluation Metrics for Practical and Automatic
Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。
本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文 参考訳(メタデータ) (2023-08-01T05:01:05Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z) - RLAD: Time Series Anomaly Detection through Reinforcement Learning and
Active Learning [17.089402177923297]
新しい半監視型時系列異常検出アルゴリズムを紹介します。
深層強化学習とアクティブラーニングを使用して、実世界の時系列データの異常を効率的に学習し、適応する。
パラメータを手動でチューニングする必要はなく、比較するすべての最先端のメソッドを上回ります。
論文 参考訳(メタデータ) (2021-03-31T15:21:15Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。