論文の概要: Constrained Process Maps for Multi-Agent Generative AI Workflows
- arxiv url: http://arxiv.org/abs/2602.02034v1
- Date: Mon, 02 Feb 2026 12:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.14421
- Title: Constrained Process Maps for Multi-Agent Generative AI Workflows
- Title(参考訳): マルチエージェントな生成AIワークフローのための制約付きプロセスマップ
- Authors: Ananya Joshi, Michael Rudow,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、コンプライアンスやデューディリジェンスといった規制された設定において、ますます使われている。
有限水平マルコフ決定過程 (MDP) として定式化された多エージェントシステムを導入する。
モンテカルロ推定(英語版)を用いて、疫学的不確実性はエージェントレベルで定量化され、システムレベルの不確実性は、自動ラベル付き状態またはヒトレビュー状態のいずれかで、MDPの終了によって捉えられる。
- 参考スコア(独自算出の注目度): 10.871587311621974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based agents are increasingly used to perform complex, multi-step workflows in regulated settings such as compliance and due diligence. However, many agentic architectures rely primarily on prompt engineering of a single agent, making it difficult to observe or compare how models handle uncertainty and coordination across interconnected decision stages and with human oversight. We introduce a multi-agent system formalized as a finite-horizon Markov Decision Process (MDP) with a directed acyclic structure. Each agent corresponds to a specific role or decision stage (e.g., content, business, or legal review in a compliance workflow), with predefined transitions representing task escalation or completion. Epistemic uncertainty is quantified at the agent level using Monte Carlo estimation, while system-level uncertainty is captured by the MDP's termination in either an automated labeled state or a human-review state. We illustrate the approach through a case study in AI safety evaluation for self-harm detection, implemented as a multi-agent compliance system. Results demonstrate improvements over a single-agent baseline, including up to a 19\% increase in accuracy, up to an 85x reduction in required human review, and, in some configurations, reduced processing time.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、コンプライアンスやデューディリジェンスといった規制された設定において、複雑で多段階のワークフローの実行にますます使用される。
しかしながら、多くのエージェントアーキテクチャは、主に1つのエージェントの迅速なエンジニアリングに依存しており、モデルがどのように不確実性に対処し、相互接続された決定段階と人間の監督によって調整するかを観察または比較することは困難である。
有限水平マルコフ決定過程 (MDP) として定式化された多エージェントシステムを導入する。
各エージェントは特定の役割や決定段階(コンプライアンスワークフローにおけるコンテンツ、ビジネス、法的レビューなど)に対応し、タスクのエスカレーションや完了を表す事前定義されたトランジションを行います。
モンテカルロ推定(英語版)を用いて、疫学的不確実性はエージェントレベルで定量化され、システムレベルの不確実性は、自動ラベル付き状態または人間レビュー状態のいずれにおいても、MDPの終了によって捉えられる。
マルチエージェントコンプライアンスシステムとして実装された自己ハーム検出のためのAI安全性評価のケーススタディを通じて、このアプローチを解説する。
その結果、単一エージェントのベースラインよりも、最大19倍の精度向上、必要なヒューマンレビューの最大85倍の削減、一部の構成では処理時間の短縮などが改善された。
関連論文リスト
- Agentic Confidence Calibration [67.50096917021521]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。
HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。
HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (2026-01-22T09:08:25Z) - Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems [0.0]
エージェントAIの最近の進歩は、スタンドアロンの大規模言語モデルから統合システムへと焦点を移している。
LLM、メモリ、ツール、環境を含む4つの評価柱を持つエンドツーエンドのエージェントアセスメントフレームワークを提案する。
我々はこのフレームワークを、従来のメトリクスによる振る舞いの偏りを示す、代表的なAutonomous CloudOpsユースケースで検証する。
論文 参考訳(メタデータ) (2025-12-14T18:17:40Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning [49.31650627835956]
システムがスケールアップすると、部分的なエージェントの障害は避けられないものとなり、全体的なパフォーマンスが著しく低下するエージェントのサブセットを特定することが重要になる。
本稿では,大規模マルチエージェント強化学習(MARL)における脆弱性エージェント識別(VAI)問題について検討する。
実験により, 大規模MARLおよびルールベースシステムにおいて, より脆弱なエージェントを効果的に同定し, システムを悪用し, それぞれのエージェントの脆弱性を明らかにする値関数を学習した。
論文 参考訳(メタデータ) (2025-09-18T16:03:50Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents [12.052972947563424]
既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして評価している。
対話型タスク計画エージェントの行動過程を概念化する統合評価プロトコルPIPAを提案する。
分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
論文 参考訳(メタデータ) (2025-05-02T21:27:10Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。