論文の概要: Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies
- arxiv url: http://arxiv.org/abs/2606.06011v1
- Date: Thu, 04 Jun 2026 11:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.737942
- Title: Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies
- Title(参考訳): マルチエージェント強化学習を用いたマルチエージェント協調型チーム編成戦略のマージモデルベース制御
- Authors: Christian Llanes, Spencer W. Jensen, Samuel Coogan,
- Abstract要約: 本稿では,マルチエージェント強化学習(MARL)とモデルベース制御を組み合わせたフレームワークを提案する。
マルチエージェント追従回避シナリオに適用することで,本アルゴリズムの性能を実証する。
- 参考スコア(独自算出の注目度): 3.1937775271700612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a framework that combines multi-agent reinforcement learning (MARL) with model-based control to achieve safe, dynamically feasible actions in cooperative multi-agent tasks. Multi-agent reinforcement learning provides the advantage of learning cooperative policies for multi-agent teams from discrete non-differentiable rewards in a long planning horizon. Model-predictive control is robust and offers safe, dynamically feasible actions in a fast replanning framework for short horizons. We propose an algorithm that extends actor-critic model predictive control for MARL which we refer to as multi-agent actor-critic model predictive control (MA-AC-MPC). We demonstrate the capabilities of this algorithm by applying it to a multi-agent pursuit-evasion scenario. Specifically, we compare the evader team's strategy using the MA-AC-MPC model and a multi-layer perceptron model (MA-AC-MLP). The pursuer team uses augmented proportional navigation as it is accepted as an advanced adversarial control law. We also provide an example with a heterogeneous environment where a drone and omni-wheeled rover cooperate to achieve repeatable and successful landing with 100% success rate in hardware for MA-AC-MPC compared to 60% for MA-AC-MLP. We demonstrate the robustness of the proposed MA-AC-MPC algorithm in hardware for both environments.
- Abstract(参考訳): 本研究では,マルチエージェント強化学習(MARL)とモデルベース制御を組み合わせることで,協調型マルチエージェントタスクにおける安全な動的動作を実現するフレームワークを提案する。
マルチエージェント強化学習は、長期計画において、個別の非差別的な報酬から、マルチエージェントチームのための協調政策を学ぶ利点を提供する。
モデル予測制御は堅牢で、短い地平線のための高速な再計画フレームワークにおいて安全で動的に実行可能なアクションを提供する。
本稿では,マルチエージェントアクタ・アクタ・アクタ・アクタ・モデル予測制御(MA-AC-MPC)と呼ばれる,MARLのアクタ・アクタ・アクタ・モデル予測制御を拡張するアルゴリズムを提案する。
マルチエージェント追従回避シナリオに適用することで,本アルゴリズムの性能を実証する。
具体的には,MA-AC-MPCモデルと多層パーセプトロンモデル(MA-AC-MLP)を用いて,エバダチームの戦略を比較する。
追跡チームは、高度な敵の制御法として認められているため、比例航法を付加している。
また,MA-AC-MLPの60%と比較して,MA-AC-MPCのハードウェアにおいて,ドローンと全輪ローバーが協調して,繰り返しかつ成功的な着陸を実現する異種環境の例を示した。
両環境のハードウェアにおけるMA-AC-MPCアルゴリズムの堅牢性を示す。
関連論文リスト
- PCHC: Enabling Preference Conditioned Humanoid Control via Multi-Objective Reinforcement Learning [50.63196995993855]
多目的強化学習(MORL)を活用してPCHC(Preference-Conditioned Humanoid Control)を実現する新しいフレームワークを提案する。
当社のフレームワークは、単一の嗜好条件のポリシーを多種多様な行動を示すために有効である。
論文 参考訳(メタデータ) (2026-03-25T07:55:37Z) - MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-08T07:28:44Z) - MOMA-AC: A preference-driven actor-critic framework for continuous multi-objective multi-agent reinforcement learning [3.312665722657581]
本稿では、連続状態とアクション空間のためのインナーループアクター批判フレームワークを初めて紹介する。
このフレームワークをTD3(Deep Deterministic Policy Gradient)とDDPG(Deep Deterministic Policy Gradient)でインスタンス化する。
このフレームワークは、マルチヘッドアクターネットワーク、中央集権的な批評家、客観的な嗜好条件アーキテクチャを組み合わせたものである。
論文 参考訳(メタデータ) (2025-11-22T20:24:51Z) - CTTS: Collective Test-Time Scaling [58.564620942591866]
テスト時スケーリング(TTS)は,大規模言語モデル(LLM)のパフォーマンス向上のための,有望かつトレーニング不要なアプローチとして登場した。
単体テストタイムスケーリング(STTS)パラダイムを克服するために、CTTS(Collective Test-Time Scaling)を導入します。
CTTS-MMは、マルチエージェントとマルチリワードのコラボレーションを運用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T11:19:08Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Counterfactual Multi-Agent Policy Gradients [47.45255170608965]
本稿では,COMAポリシーグラデーションと呼ばれる新しいマルチエージェントアクター批判手法を提案する。
COMAは中央集権的な批評家を用いてQ-関数を推定し、エージェントのポリシーを最適化する。
我々は,StarCraftユニットのマイクロマネジメントにおけるテストベッドにおけるCOMAの評価を行った。
論文 参考訳(メタデータ) (2017-05-24T18:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。