論文の概要: Hierarchical Message-Passing Policies for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.23604v1
- Date: Thu, 31 Jul 2025 14:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.930259
- Title: Hierarchical Message-Passing Policies for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための階層型メッセージパッシングポリシー
- Authors: Tommaso Marzi, Cesare Alippi, Andrea Cini,
- Abstract要約: 本稿では,メッセージパスポリシーのマルチエージェント階層を学習するための,新しい効果的な手法を提案する。
階層内の下位レベルのエージェントは、上位レベルから目標を受け取り、隣のエージェントとメッセージを同じレベルで交換する。
関連ベンチマークの結果から,本手法は最先端技術と比較して好適な性能を示した。
- 参考スコア(独自算出の注目度): 19.739901034066587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized Multi-Agent Reinforcement Learning (MARL) methods allow for learning scalable multi-agent policies, but suffer from partial observability and induced non-stationarity. These challenges can be addressed by introducing mechanisms that facilitate coordination and high-level planning. Specifically, coordination and temporal abstraction can be achieved through communication (e.g., message passing) and Hierarchical Reinforcement Learning (HRL) approaches to decision-making. However, optimization issues limit the applicability of hierarchical policies to multi-agent systems. As such, the combination of these approaches has not been fully explored. To fill this void, we propose a novel and effective methodology for learning multi-agent hierarchies of message-passing policies. We adopt the feudal HRL framework and rely on a hierarchical graph structure for planning and coordination among agents. Agents at lower levels in the hierarchy receive goals from the upper levels and exchange messages with neighboring agents at the same level. To learn hierarchical multi-agent policies, we design a novel reward-assignment method based on training the lower-level policies to maximize the advantage function associated with the upper levels. Results on relevant benchmarks show that our method performs favorably compared to the state of the art.
- Abstract(参考訳): 分散マルチエージェント強化学習(MARL)法はスケーラブルなマルチエージェントポリシーを学習することができるが、部分観測性や非定常性に悩まされている。
これらの課題に対処するには、コーディネーションとハイレベルプランニングを促進するメカニズムを導入する必要がある。
具体的には、コーディネーションと時間的抽象化は、コミュニケーション(例えば、メッセージパッシング)と階層強化学習(HRL)による意思決定を通じて達成できる。
しかし、最適化問題は階層的なポリシーをマルチエージェントシステムに適用することを制限する。
そのため、これらの手法の組み合わせは十分に検討されていない。
この空白を埋めるために、メッセージパッシングポリシーのマルチエージェント階層を学習するための新しい効果的な手法を提案する。
我々は、封建的なHRLフレームワークを採用し、エージェント間の計画と調整のために階層的なグラフ構造に依存している。
階層内の下位レベルのエージェントは、上位レベルから目標を受け取り、隣のエージェントとメッセージを同じレベルで交換する。
階層型マルチエージェントポリシーを学習するために,上位レベルに関連する利点関数を最大化するために,下位レベルポリシーのトレーニングに基づく新たな報酬割り当て手法を設計する。
関連ベンチマークの結果から,本手法は最先端の手法と比較して好適な性能を示した。
関連論文リスト
- TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning [4.591755344464076]
完全に分散化された階層型マルチエージェントシステムを構築するためのフレームワークであるTAME Agent Framework (TAG)を紹介する。
TAGは疎結合を維持しながらレベル間の情報フローを標準化し、多様なエージェントタイプをシームレスに統合する。
この結果から,分散階層型組織は学習速度と最終性能を両立させ,TAGをスケーラブルなマルチエージェントシステムにとって有望な方向と位置づけた。
論文 参考訳(メタデータ) (2025-02-21T12:52:16Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文 参考訳(メタデータ) (2024-06-21T13:17:33Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。