論文の概要: ProMAS: Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics
- arxiv url: http://arxiv.org/abs/2603.20260v1
- Date: Thu, 12 Mar 2026 07:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.94443
- Title: ProMAS: Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics
- Title(参考訳): ProMAS:マルコフ遷移ダイナミクスを用いたマルチエージェントシステムのアクティブエラー予測
- Authors: Xinkui Zhao, Sai Liu, Yifan Zhang, Qingyu Ma, Guanjie Cheng, Naibo Wang, Chang Liu,
- Abstract要約: ProMAS, Proactive framework を用いた予測誤差アナルイシスのためのマルコフ遷移を提案する。
Who&Whenベンチマークでは、ProproMASは22.97%のステップレベルの精度を達成し、推論ログの27%しか処理していない。
このパフォーマンスは、MASCのようなリアクティブモニタと競合し、データのオーバーヘッドを73%削減する。
- 参考スコア(独自算出の注目度): 11.144773070519868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models into Multi-Agent Systems (MAS) has enabled the so-lution of complex, long-horizon tasks through collaborative reasoning. However, this collec-tive intelligence is inherently fragile, as a single logical fallacy can rapidly propagate and lead to system-wide failure. Most current research re-lies on post-hoc failure analysis, thereby hinder-ing real-time intervention. To address this, we propose PROMAS, a proactive framework utiliz-ing Markov transitions for predictive error anal-ysis. PROMAS extracts Causal Delta Features to capture semantic displacement, mapping them to a quantized Vector Markov Space to model reasoning as probabilistic transitions. By inte-grating a Proactive Prediction Head with Jump Detection, the method localizes errors via risk acceleration rather than static thresholds. On the Who&When benchmark, PROMAS achieves 22.97% step-level accuracy while processing only 27% of reasoning logs. This performance rivals reactive monitors like MASC while reducing data overhead by 73%. Although this strategy entails an accuracy trade-off compared to post-hoc meth-ods, it significantly improves intervention latency, balancing diagnostic precision with the real-time demands of autonomous reasoning.
- Abstract(参考訳): 大規模言語モデルのマルチエージェントシステム(MAS)への統合により、協調推論による複雑な長期タスクの解決が可能になった。
しかし、このコレクティブな知性は本質的に脆弱であり、単一の論理的誤りは急速に伝播し、システム全体の失敗につながる。
現在のほとんどの研究は、ホット後の障害分析を再検討し、それによってリアルタイムの介入を妨げている。
そこで本研究では,予測エラーアナルイシスに対するマルコフ遷移を利用したプロアクティブフレームワーク PROMAS を提案する。
PROMASはセマンティックな変位を捉えるために因果デルタ特徴を抽出し、それを量子化されたベクトルマルコフ空間にマッピングし、確率的遷移として推論をモデル化する。
ジャンプ検出によるプロアクティブ予測ヘッドのインテグレートにより、静的しきい値よりもリスクアクセラレーションによるエラーのローカライズを行う。
Who&Whenベンチマークでは、ProproMASは22.97%のステップレベルの精度を達成し、推論ログの27%しか処理していない。
このパフォーマンスは、MASCのようなリアクティブモニタと競合し、データのオーバーヘッドを73%削減する。
この戦略は、ホット後のメソドに比べて精度の高いトレードオフを必要とするが、介入遅延を大幅に改善し、診断精度と自律推論のリアルタイム要求とのバランスをとる。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning [4.928838343487574]
既存の不確実性プロキシは、シングルショットテキスト生成に重点を置いている。
本稿では,マルチコントロールツール-エージェント-ユーザインタラクションのためのトラジェクトリレベルの不確実性指標であるTRACERを紹介する。
論文 参考訳(メタデータ) (2026-02-11T22:23:56Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。