論文の概要: Safe and Policy-Compliant Multi-Agent Orchestration for Enterprise AI
- arxiv url: http://arxiv.org/abs/2604.17240v1
- Date: Sun, 19 Apr 2026 04:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.410572
- Title: Safe and Policy-Compliant Multi-Agent Orchestration for Enterprise AI
- Title(参考訳): エンタープライズAIのための安全とポリシーに適合したマルチエージェントオーケストレーション
- Authors: Vinil Pasupuleti, Shyalendar Reddy Allala, Siva Rama Krishna Varma Bayyavarapu, Shrey Tyagi,
- Abstract要約: 本稿では 92-97% の C (Constraint-Aware Multi-Agent Cognitive Orchestration) を紹介する。
Cは、(i)凸投影による政策実現可能なアクションを強制する制約プロジェクションエンジン、(ii)適応型リスク重み付きラグランジアンユーティリティシェーピング、(iii)証明可能な有界収束を伴う反復交渉プロトコルの3つのメカニズムを統合する。
C言語は、OPAのようなプロダクションエンジンと直接統合するために設計されたポリシー述語と共に、いかなるエージェントアーキテクチャとも互換性のある制約付きデプロイメントタイムとして動作する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise AI systems increasingly deploy multiple intelligent agents across mission-critical workflows that must satisfy hard policy constraints, bounded risk exposure, and comprehensive auditability (SOX, HIPAA, GDPR). Existing coordination methods - cooperative MARL, consensus protocols, and centralized planners - optimize expected reward while treating constraints implicitly. This paper introduces CAMCO (Constraint-Aware Multi-Agent Cognitive Orchestration), a runtime coordination layer that models multi-agent decision-making as a constrained optimization problem. CAMCO integrates three mechanisms: (i) a constraint projection engine enforcing policy-feasible actions via convex projection, (ii) adaptive risk-weighted Lagrangian utility shaping, and (iii) an iterative negotiation protocol with provably bounded convergence. Unlike training-time constrained RL, CAMCO operates as deployment-time middleware compatible with any agent architecture, with policy predicates designed for direct integration with production engines such as OPA. Evaluation across three enterprise scenarios - including comparison against a constrained Lagrangian MARL baseline - demonstrates zero policy violations, risk exposure below threshold (mean ratio 0.71), 92-97% utility retention, and mean convergence in 2.4 iterations.
- Abstract(参考訳): エンタープライズAIシステムは、ハードポリシー制約、バウンドリスク露光、包括的な監査可能性(SOX、HIPAA、GDPR)を満たす必要があるミッションクリティカルなワークフローにわたって、複数のインテリジェントエージェントをデプロイするようになっている。
既存の協調手法 - 協調MARL、コンセンサスプロトコル、集中型プランナー - は、制約を暗黙的に扱いながら期待される報酬を最適化する。
本稿では、制約付き最適化問題としてマルチエージェント意思決定をモデル化したランタイム調整層であるCAMCO(Constraint-Aware Multi-Agent Cognitive Orchestration)を紹介する。
CAMCOは3つのメカニズムを統合している。
一 凸投射による政策実現可能な行為を強制する制約投射エンジン
(二)適応リスク重み付きラグランジアンユーティリティーシェーピング、及び
三 確固たる拘束力のある反復交渉議定書
訓練時間制限されたRLとは異なり、CAMCOは任意のエージェントアーキテクチャと互換性のあるデプロイ時ミドルウェアとして動作し、OPAのようなプロダクションエンジンと直接統合するために設計されたポリシー述語を持つ。
制約付きラグランジアンMARLベースラインとの比較を含む3つのエンタープライズシナリオにおける評価では、ポリシー違反のゼロ、しきい値未満のリスク露出(平均比0.71)、92-97%のユーティリティ保持、2.4イテレーションの平均収束が示されている。
関連論文リスト
- Safe Multi-Agent Deep Reinforcement Learning for Privacy-Aware Edge-Device Collaborative DNN Inference [8.14391361533752]
本稿では,エッジデバイスとサーバ間で適応モデル分割を行う,プライバシ対応協調推論フレームワークを提案する。
本稿では,モデル配置,ユーザサーバアソシエーション,モデル分割,リソースアロケーションを統合したCMDP(Constrained Markov Decision Process)として共同問題を定式化する。
HC-MAPPO-Lは、エネルギー消費とプライバシコストのバランスを保ちながら、厳しい遅延制約を一貫して満たしていることを示す。
論文 参考訳(メタデータ) (2026-02-23T11:33:52Z) - Co2PO: Coordinated Constrained Policy Optimization for Multi-Agent RL [0.0]
我々は,Co2POを提案する。Co2POは,選択的かつリスク対応のコミュニケーションを通じて協調駆動型安全を実現する新しいフレームワークである。
Co2POは、学習されたハザード予測器によって制御される位置意図と利得信号を放送するための共有ブラックボードアーキテクチャを導入している。
我々は,Co2POを,制約付きベースラインよりも高いリターンを達成する複雑なマルチエージェント安全ベンチマーク群で評価した。
論文 参考訳(メタデータ) (2026-02-03T01:09:31Z) - MultiRisk: Multiple Risk Control via Iterative Score Thresholding [40.193623095603265]
我々は、ユーザ定義の優先順位で複数のリスク制約を強制する問題を定式化する。
このシーケンシャルな構造を利用する2つの効率的な動的プログラミングアルゴリズムを導入する。
提案アルゴリズムは,個々のリスクを目標レベルに近いレベルで制御できることを示す。
論文 参考訳(メタデータ) (2025-12-31T03:25:30Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Pareto Actor-Critic for Communication and Computation Co-Optimization in Non-Cooperative Federated Learning Services [18.291028557265864]
ゲーム理論によるマルチエージェント強化学習(MARL)フレームワークであるPAC-MCoFLを導入する。
PAC-MCoFL-p はパラメータ化予測生成器を特徴とするスケーラブルな変種であり,有界な誤差で計算複雑性を著しく低減する。
論文 参考訳(メタデータ) (2025-08-22T02:09:48Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。