論文の概要: Hierarchical Lead Critic based Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.21680v1
- Date: Wed, 25 Feb 2026 08:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.756123
- Title: Hierarchical Lead Critic based Multi-Agent Reinforcement Learning
- Title(参考訳): 階層的鉛批判に基づくマルチエージェント強化学習
- Authors: David Eckel, Henri Meeß,
- Abstract要約: 本稿では,階層レベルの異なる複数の視点から学習する,新しい逐次学習手法とMARLアーキテクチャを提案する。
HLCは、複数の階層を導入し、局所的およびグローバル的な視点を活用し、高いサンプル効率とロバストなポリシーでパフォーマンスを向上させることを実証している。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative Multi-Agent Reinforcement Learning (MARL) solves complex tasks that require coordination from multiple agents, but is often limited to either local (independent learning) or global (centralized learning) perspectives. In this paper, we introduce a novel sequential training scheme and MARL architecture, which learns from multiple perspectives on different hierarchy levels. We propose the Hierarchical Lead Critic (HLC) - inspired by natural emerging distributions in team structures, where following high-level objectives combines with low-level execution. HLC demonstrates that introducing multiple hierarchies, leveraging local and global perspectives, can lead to improved performance with high sample efficiency and robust policies. Experimental results conducted on cooperative, non-communicative, and partially observable MARL benchmarks demonstrate that HLC outperforms single hierarchy baselines and scales robustly with increasing amounts of agents and difficulty.
- Abstract(参考訳): 協調的マルチエージェント強化学習(MARL)は、複数のエージェントからの協調を必要とする複雑なタスクを解決するが、多くの場合、局所的な(非独立的な学習)あるいはグローバルな(集中的な学習)の視点に限られる。
本稿では,階層レベルの異なる複数の視点から学習する,新しい逐次学習方式とMARLアーキテクチャを提案する。
階層的リード批判(HLC:hierarchical Lead Critic)は、チーム構造における自然な創発的な分布にインスパイアされた、ハイレベルな目的と低レベルな実行が組み合わさったものである。
HLCは、複数の階層を導入し、局所的およびグローバル的な視点を活用し、高いサンプル効率とロバストなポリシーでパフォーマンスを向上させることを実証している。
協調的・非コミュニケーション的・部分的に観測可能なMARLベンチマークによる実験結果から,HLCは単一階層のベースラインを上回り,エージェント数の増加と難易度の増加とともに堅牢にスケールすることが示された。
関連論文リスト
- Hierarchical Message-Passing Policies for Multi-Agent Reinforcement Learning [19.739901034066587]
本稿では,メッセージパスポリシーのマルチエージェント階層を学習するための,新しい効果的な手法を提案する。
階層内の下位レベルのエージェントは、上位レベルから目標を受け取り、隣のエージェントとメッセージを同じレベルで交換する。
関連ベンチマークの結果から,本手法は最先端技術と比較して好適な性能を示した。
論文 参考訳(メタデータ) (2025-07-31T14:42:12Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy [31.041340552853004]
Graph Collaboration MARL (LGC-MARL)は、Large Language Models (LLM)とMulti-Agent Reinforcement Learning (MARL)を効率的に組み合わせたフレームワークである。
LGC-MARLは複雑なタスクを実行可能なサブタスクに分解し、グラフベースの調整によって複数のエージェント間の効率的な協調を実現する。
AI2-THORシミュレーションプラットフォームの実験結果から,LGC-MARLの性能とスケーラビリティが向上した。
論文 参考訳(メタデータ) (2025-03-13T05:02:49Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks [17.914928652949314]
階層型合意に基づくマルチエージェント強化学習(HC-MARL)フレームワークを導入し,その限界に対処する。
HC-MARLは、エージェント間のグローバルコンセンサスを促進するために対照的な学習を採用し、直接のコミュニケーションなしに協調行動を可能にする。
様々なタスクの動的な要求を満たすために、コンセンサスを複数の層に分割し、短期的および長期的考慮を包含する。
論文 参考訳(メタデータ) (2024-07-11T03:55:55Z) - Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T06:38:22Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。