論文の概要: Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- arxiv url: http://arxiv.org/abs/2504.15425v1
- Date: Mon, 21 Apr 2025 20:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 01:31:13.573335
- Title: Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Title(参考訳): 分散エピグラフ形式MARLによるマルチエージェント安全最適制御の解法
- Authors: Songyuan Zhang, Oswin So, Mitchell Black, Zachary Serlin, Chuchu Fan,
- Abstract要約: マルチロボットシステムのタスクは、安全を維持しながら、ロボットが協力し、チームのゴールを完了する必要があることが多い。
この問題は、通常、制約付きマルコフ決定プロセス(CMDP)として定式化され、これは、グローバルコストを最小化し、ユーザ定義しきい値以下に制約違反の平均値をもたらす。
現実世界のロボット応用に触発されて、安全を制約違反ゼロと定義する。
制約付き最適化にエピグラフ形式を用い、トレーニング安定性を改善し、各エージェントが分散方式で中央集権的なエピグラフ形式問題を解くことを証明した。
この結果、Def-MARLと呼ばれる新しい集中型分散実行MARLアルゴリズムが実現した。
- 参考スコア(独自算出の注目度): 12.261657830457754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tasks for multi-robot systems often require the robots to collaborate and complete a team goal while maintaining safety. This problem is usually formalized as a constrained Markov decision process (CMDP), which targets minimizing a global cost and bringing the mean of constraint violation below a user-defined threshold. Inspired by real-world robotic applications, we define safety as zero constraint violation. While many safe multi-agent reinforcement learning (MARL) algorithms have been proposed to solve CMDPs, these algorithms suffer from unstable training in this setting. To tackle this, we use the epigraph form for constrained optimization to improve training stability and prove that the centralized epigraph form problem can be solved in a distributed fashion by each agent. This results in a novel centralized training distributed execution MARL algorithm named Def-MARL. Simulation experiments on 8 different tasks across 2 different simulators show that Def-MARL achieves the best overall performance, satisfies safety constraints, and maintains stable training. Real-world hardware experiments on Crazyflie quadcopters demonstrate the ability of Def-MARL to safely coordinate agents to complete complex collaborative tasks compared to other methods.
- Abstract(参考訳): マルチロボットシステムのタスクは、安全を維持しながら、ロボットが協力し、チームのゴールを完了する必要があることが多い。
この問題は、通常、制約付きマルコフ決定プロセス(CMDP)として定式化され、これは、グローバルコストを最小化し、ユーザ定義しきい値以下に制約違反の平均値をもたらす。
現実世界のロボット応用に触発されて、安全を制約違反ゼロと定義する。
多くの安全なマルチエージェント強化学習(MARL)アルゴリズムがCMDPを解くために提案されているが、これらのアルゴリズムはこの環境で不安定な訓練に悩まされている。
これを解決するために、制約付き最適化にエピグラフ形式を用い、トレーニング安定性を改善し、各エージェントが分散方式で集中型エピグラフ形式問題を解くことを証明した。
この結果,Def-MARLという分散実行MARLアルゴリズムが新たに開発された。
2つのシミュレータにまたがる8つのタスクのシミュレーション実験により、Def-MARLは最高の全体的な性能を達成し、安全性の制約を満たし、安定したトレーニングを維持していることが示された。
Crazyflieクワッドコプターの実際のハードウェア実験では、Def-MARLがエージェントを安全に調整し、他の方法と比較して複雑な協調作業を完了させる能力を示した。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Learning Efficient Flocking Control based on Gibbs Random Fields [8.715391538937707]
Gibbs Random Fields (GRF) を用いたマルチエージェント強化学習フレームワーク
アクションアテンションモジュールは、隣接するロボットの動作意図を暗黙的に予測するために導入される。
提案されたフレームワークは、成功率99%の挑戦的な環境で、マルチロボットシステムの効率的な分散制御ポリシーを学習することを可能にする。
論文 参考訳(メタデータ) (2025-02-05T08:27:58Z) - Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium [6.169364905804677]
マルチエージェント強化学習(MARL)は協調作業において顕著な成功を収めた。
MARLエージェントを現実世界のアプリケーションにデプロイすることは、重大な安全性上の課題を示す。
我々は,エージェントが訪れるすべての状態において,安全要件を強制する,$textitstate-wise$制約付き安全なMARLの新たな理論的枠組みを提案する。
複雑な高次元システムにおける実践的展開のために、$textitMulti-Agent Dual Actor-Critic$ (MADAC)を提案する。
論文 参考訳(メタデータ) (2024-11-22T16:08:42Z) - Safe Multi-Agent Reinforcement Learning with Bilevel Optimization in Autonomous Driving [3.5293763645151404]
そこで本稿では,二段階最適化を用いたスタックルバーグモデルに基づく安全なMARL法を提案する。
Constrained Stackelberg Q-learning (CSQ) と Constrained Stackelberg Multi-Agent Deep Deterministic Policy Gradient (CS-MADDPG) の2つの実用的なアルゴリズムを開発した。
CSQ と CS-MADDPG のアルゴリズムは,Bi-AC,MACPO,MAPPO-L などの強力な MARL ベースラインよりも,報酬と安全性の面で優れていた。
論文 参考訳(メタデータ) (2024-05-28T14:15:18Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [45.377385280485065]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
我々は,サンプルの複雑さ,トレーニング不安定性,および準最適ナッシュ平衡に収束するリスクに関する問題を解決するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
HASACは、Bi-DexHands、Multi-Agent MuJoCo、StarCraft Challenge、Google Research Football、Multi-Agent Particle Environment、Light Aircraft Gameの6つのベンチマークで評価する。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Decentralized Safe Multi-agent Stochastic Optimal Control using Deep
FBSDEs and ADMM [16.312625634442092]
本稿では,障害発生時のマルチエージェント制御のための,安全でスケーラブルな分散ソリューションを提案する。
分散化は、各エージェントの最適化変数、コピー変数、隣人への拡張によって達成される。
安全なコンセンサスソリューションを実現するために,ADMMベースのアプローチを取り入れた。
論文 参考訳(メタデータ) (2022-02-22T03:57:23Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。