論文の概要: The Stochastic Gap: A Markovian Framework for Pre-Deployment Reliability and Oversight-Cost Auditing in Agentic Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2603.24582v1
- Date: Wed, 25 Mar 2026 17:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.430363
- Title: The Stochastic Gap: A Markovian Framework for Pre-Deployment Reliability and Oversight-Cost Auditing in Agentic Artificial Intelligence
- Title(参考訳): 確率的ギャップ:エージェント人工知能のデプロイ前の信頼性と監視コスト監査のためのマルコフ的フレームワーク
- Authors: Biplab Pal, Santanu Bhattacharya,
- Abstract要約: 大規模なワークフローは州レベルで十分にサポートされつつ、次のステップの決定に対してかなりの量の盲点を維持できることを示す。
このフレームワークは、大規模なエンタープライズ調達ワークフローで実証されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic artificial intelligence (AI) in organizations is a sequential decision problem constrained by reliability and oversight cost. When deterministic workflows are replaced by stochastic policies over actions and tool calls, the key question is not whether a next step appears plausible, but whether the resulting trajectory remains statistically supported, locally unambiguous, and economically governable. We develop a measure-theoretic Markov framework for this setting. The core quantities are state blind-spot mass B_n(tau), state-action blind mass B^SA_{pi,n}(tau), an entropy-based human-in-the-loop escalation gate, and an expected oversight-cost identity over the workflow visitation measure. We instantiate the framework on the Business Process Intelligence Challenge 2019 purchase-to-pay log (251,734 cases, 1,595,923 events, 42 distinct workflow actions) and construct a log-driven simulated agent from a chronological 80/20 split of the same process. The main empirical finding is that a large workflow can appear well supported at the state level while retaining substantial blind mass over next-step decisions: refining the operational state to include case context, economic magnitude, and actor class expands the state space from 42 to 668 and raises state-action blind mass from 0.0165 at tau=50 to 0.1253 at tau=1000. On the held-out split, m(s) = max_a pi-hat(a|s) tracks realized autonomous step accuracy within 3.4 percentage points on average. The same quantities that delimit statistically credible autonomy also determine expected oversight burden. The framework is demonstrated on a large-scale enterprise procurement workflow and is designed for direct application to engineering processes for which operational event logs are available.
- Abstract(参考訳): 組織におけるエージェント人工知能(AI)は、信頼性と監視コストに制約されたシーケンシャルな決定問題である。
決定論的ワークフローがアクションやツールコールに対する確率的ポリシーに置き換えられる場合、重要な問題は次のステップが妥当であるかどうかではなく、結果の軌道が統計的に支持され、局所的に曖昧で、経済的に支配可能であるかどうかである。
この設定のための測度理論的マルコフフレームワークを開発する。
中心となる量は、状態ブラインドスポット質量B_n(タウ)、状態アクションブラインド質量B^SA_{pi,n}(タウ)、エントロピーベースの人間-イン・ザ・ループエスカレーションゲート、ワークフロービジテーション指標に対する監視コストの予測である。
ビジネスプロセスインテリジェンスチャレンジ2019(251,734ケース,1,595,923イベント,42の異なるワークフローアクション)のフレームワークをインスタンス化し、同じプロセスの時系列80/20分割からログ駆動のシミュレーションエージェントを構築する。
ケースコンテキスト、経済規模、アクタークラスを含む運用状態の洗練は、状態空間を42から68に拡張し、タウ=50で0.0165からタウ=1000で0.1253に増加させる。
ホールドアウトスプリットでは、m(s) = max_a pi-hat(a|s)トラックが平均3.4ポイントの自律的なステップ精度を実現した。
統計的に信頼性の高い自律性を逸脱するのと同じ量で、予測される監視負担も決定される。
このフレームワークは大規模なエンタープライズ調達ワークフロー上で実証されており、運用イベントログが利用可能なエンジニアリングプロセスへの直接的なアプリケーションとして設計されている。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - When AI Levels the Playing Field: Skill Homogenization, Asset Concentration, and Two Regimes of Inequality [0.7016842616745783]
生成AIは、経済価値を集中的な補完資産にシフトしながら、タスク内スキルの違いを圧縮する。
我々は、この緊張関係を内在的教育、雇用主検診、異種企業によるタスクベースモデルで定式化する。
このモデルでは、境界がAIの技術構造に依存する2つのレジームが生成される。
論文 参考訳(メタデータ) (2026-03-05T12:41:08Z) - ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering [0.27195102129094995]
AIコーディングエージェントに対する現在のアプローチは、大規模言語モデルとエージェント自体の境界を曖昧にしている。
本稿では, LLM が環境環境の構成要素として扱われるように制御境界を設定することを提案する。
論文 参考訳(メタデータ) (2025-12-18T15:28:21Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - The 4/$δ$ Bound: Designing Predictable LLM-Verifier Systems for Formal Method Guarantee [5.345468714252351]
この研究は LLM-Verifier Convergence Theorem の開発によってギャップを埋める。
LLMと検証器の相互作用を離散時間マルコフ連鎖としてモデル化する。
われわれはこの予測を90,000件以上の治験を含む広範囲な実証キャンペーンでストレステストした。
論文 参考訳(メタデータ) (2025-11-30T22:19:09Z) - AgentGuard: Runtime Verification of AI Agents [1.14219428942199]
AgentGuardは、エージェントAIシステムの実行時検証のためのフレームワークである。
動的確率保証(Dynamic Probabilistic Assurance)と呼ばれる新しいパラダイムを通じて、継続的な量的保証を提供する。
論文 参考訳(メタデータ) (2025-09-28T13:08:50Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。