論文の概要: Co2PO: Coordinated Constrained Policy Optimization for Multi-Agent RL
- arxiv url: http://arxiv.org/abs/2602.02970v1
- Date: Tue, 03 Feb 2026 01:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.170828
- Title: Co2PO: Coordinated Constrained Policy Optimization for Multi-Agent RL
- Title(参考訳): Co2PO:マルチエージェントRLのための協調型制約付きポリシー最適化
- Authors: Shrenik Patel, Christine Truong,
- Abstract要約: 我々は,Co2POを提案する。Co2POは,選択的かつリスク対応のコミュニケーションを通じて協調駆動型安全を実現する新しいフレームワークである。
Co2POは、学習されたハザード予測器によって制御される位置意図と利得信号を放送するための共有ブラックボードアーキテクチャを導入している。
我々は,Co2POを,制約付きベースラインよりも高いリターンを達成する複雑なマルチエージェント安全ベンチマーク群で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained multi-agent reinforcement learning (MARL) faces a fundamental tension between exploration and safety-constrained optimization. Existing leading approaches, such as Lagrangian methods, typically rely on global penalties or centralized critics that react to violations after they occur, often suppressing exploration and leading to over-conservatism. We propose Co2PO, a novel MARL communication-augmented framework that enables coordination-driven safety through selective, risk-aware communication. Co2PO introduces a shared blackboard architecture for broadcasting positional intent and yield signals, governed by a learned hazard predictor that proactively forecasts potential violations over an extended temporal horizon. By integrating these forecasts into a constrained optimization objective, Co2PO allows agents to anticipate and navigate collective hazards without the performance trade-offs inherent in traditional reactive constraints. We evaluate Co2PO across a suite of complex multi-agent safety benchmarks, where it achieves higher returns compared to leading constrained baselines while converging to cost-compliant policies at deployment. Ablation studies further validate the necessity of risk-triggered communication, adaptive gating, and shared memory components.
- Abstract(参考訳): 制約付きマルチエージェント強化学習(MARL)は、探索と安全制約付き最適化の間に根本的な緊張に直面している。
ラグランジアン法のような既存の先進的なアプローチは、通常、グローバルな罰則や、それらが発生した後に違反に反応し、しばしば探索を抑圧し、過保守主義に繋がる中央集権的な批判に依存している。
本稿では,Co2POを提案する。Co2POは,MARL通信を付加した新しいフレームワークで,選択的かつリスク対応な通信によって協調駆動型安全性を実現する。
Co2POは、時間的地平線上で潜在的な違反を積極的に予測する学習されたハザード予測器によって制御される、位置意図と利得信号を放送するための共有ブラックボードアーキテクチャを導入している。
これらの予測を制約付き最適化の目標に統合することで、エージェントは従来のリアクティブな制約に固有のパフォーマンストレードオフなしに、集団的ハザードを予測し、ナビゲートすることが可能になります。
我々は、Co2POを複雑なマルチエージェント安全ベンチマーク群で評価し、デプロイ時のコスト準拠ポリシーに収束しながら、制約付きベースラインをリードするよりも高いリターンを達成する。
アブレーション研究は、リスクトリガー通信、適応ゲーティング、共有メモリコンポーネントの必要性をさらに検証する。
関連論文リスト
- BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - Safe, Efficient, and Robust Reinforcement Learning for Ranking and Diffusion Models [2.231476498067998]
論文は、強化学習手法が安全で、サンプル効率が高く、堅牢であるようにどのように設計できるかを調査する。
コンテキスト帯域RLの統一的な視点から判断されたこの作業は、ランキングとレコメンデーション、テキストから画像への拡散モデルという2つの主要なアプリケーション領域に対処する。
論文 参考訳(メタデータ) (2025-10-17T08:37:38Z) - Optimism as Risk-Seeking in Multi-Agent Reinforcement Learning [3.2693858240177565]
リスク探索の目的を楽観主義として解釈する原則的枠組みを提案する。
我々は、エントロピーリスク/KL-ペナルティ設定の明示的な公式を含む楽観的値関数に対するポリシー勾配定理を導出する。
この枠組みはリスクに敏感な学習と楽観主義を統一し,MARLにおける協調に対する理論的根拠と実践的効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-09-28T19:44:59Z) - Multi-Agent Trust Region Policy Optimisation: A Joint Constraint Approach [17.48210470289556]
Heterogeneous-Agent Trust Region Policy Optimization (HATRPO) は、Kulback-Leibler (KL) の分散を用いて、訓練の安定化を図る。
各エージェントを同じKL閾値に割り当てると、特に不均一な設定において、遅くて局所的に最適な更新につながる可能性がある。
エージェント間のKL分散しきい値の割当には,グローバルなKL制約下でのしきい値割り当てを最適化するKKT法であるHATRPO-Wと,改善に基づくエージェントの優先順位付けを行うgreedyアルゴリズムであるHATRPO-Gの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-14T04:48:46Z) - Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
我々は,信頼領域が安全な政策のみを含むことを保証するために,政策空間を再設定する制約付きトラスト地域政策最適化(C-TRPO)を導入する。
実験により、C-TRPOは競合リターンを維持しながら制約違反を低減することが示された。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。
楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。
我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。