Fugu-MT 論文翻訳(概要): Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

論文の概要: Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2602.21680v1
Date: Wed, 25 Feb 2026 08:33:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.756123
Title: Hierarchical Lead Critic based Multi-Agent Reinforcement Learning
Title（参考訳）: 階層的鉛批判に基づくマルチエージェント強化学習
Authors: David Eckel, Henri Meeß,
Abstract要約: 本稿では,階層レベルの異なる複数の視点から学習する,新しい逐次学習手法とMARLアーキテクチャを提案する。 HLCは、複数の階層を導入し、局所的およびグローバル的な視点を活用し、高いサンプル効率とロバストなポリシーでパフォーマンスを向上させることを実証している。
参考スコア（独自算出の注目度）: 1.4323566945483497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cooperative Multi-Agent Reinforcement Learning (MARL) solves complex tasks that require coordination from multiple agents, but is often limited to either local (independent learning) or global (centralized learning) perspectives. In this paper, we introduce a novel sequential training scheme and MARL architecture, which learns from multiple perspectives on different hierarchy levels. We propose the Hierarchical Lead Critic (HLC) - inspired by natural emerging distributions in team structures, where following high-level objectives combines with low-level execution. HLC demonstrates that introducing multiple hierarchies, leveraging local and global perspectives, can lead to improved performance with high sample efficiency and robust policies. Experimental results conducted on cooperative, non-communicative, and partially observable MARL benchmarks demonstrate that HLC outperforms single hierarchy baselines and scales robustly with increasing amounts of agents and difficulty.
Abstract（参考訳）: 協調的マルチエージェント強化学習(MARL)は、複数のエージェントからの協調を必要とする複雑なタスクを解決するが、多くの場合、局所的な(非独立的な学習)あるいはグローバルな(集中的な学習)の視点に限られる。本稿では,階層レベルの異なる複数の視点から学習する,新しい逐次学習方式とMARLアーキテクチャを提案する。階層的リード批判(HLC:hierarchical Lead Critic)は、チーム構造における自然な創発的な分布にインスパイアされた、ハイレベルな目的と低レベルな実行が組み合わさったものである。 HLCは、複数の階層を導入し、局所的およびグローバル的な視点を活用し、高いサンプル効率とロバストなポリシーでパフォーマンスを向上させることを実証している。協調的・非コミュニケーション的・部分的に観測可能なMARLベンチマークによる実験結果から,HLCは単一階層のベースラインを上回り,エージェント数の増加と難易度の増加とともに堅牢にスケールすることが示された。

関連論文リスト

MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2) 本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文参考訳（メタデータ） (2026-02-08T07:28:44Z)
Reinforcement Networks: novel framework for collaborative Multi-Agent Reinforcement Learning tasks [0.0]
本稿では,MARL(Multi-Agent Reinforcement Learning)分野の一般的なフレームワークであるReinforcement Networksを紹介する。我々はReinforcement Networksフレームワークのトレーニングと推論方法を形式化し、それをLevelEnvの概念に接続して再現性のある構築、トレーニング、評価をサポートする。実証的な利益の他に、Reinforcement NetworksはMARLの階層的、モジュール的、グラフ構造的なビューを統一し、複雑なマルチエージェントシステムを設計し、訓練するための基本的な道を開く。
論文参考訳（メタデータ） (2025-12-28T10:56:20Z)
Hierarchical Message-Passing Policies for Multi-Agent Reinforcement Learning [19.739901034066587]
本稿では,メッセージパスポリシーのマルチエージェント階層を学習するための,新しい効果的な手法を提案する。階層内の下位レベルのエージェントは、上位レベルから目標を受け取り、隣のエージェントとメッセージを同じレベルで交換する。関連ベンチマークの結果から,本手法は最先端技術と比較して好適な性能を示した。
論文参考訳（メタデータ） (2025-07-31T14:42:12Z)
Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文参考訳（メタデータ） (2025-05-09T11:42:31Z)
Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy [31.041340552853004]
Graph Collaboration MARL (LGC-MARL)は、Large Language Models (LLM)とMulti-Agent Reinforcement Learning (MARL)を効率的に組み合わせたフレームワークである。 LGC-MARLは複雑なタスクを実行可能なサブタスクに分解し、グラフベースの調整によって複数のエージェント間の効率的な協調を実現する。 AI2-THORシミュレーションプラットフォームの実験結果から,LGC-MARLの性能とスケーラビリティが向上した。
論文参考訳（メタデータ） (2025-03-13T05:02:49Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank [52.831993899183416]
相互作用ランクという構造的仮定を導入し、相互作用ランクの低い関数が一般的なものよりも分布シフトに対して著しく堅牢であることを示す。我々は,非正規化と非正規化学習と組み合わせることで,オフラインMARLにおける分散的,計算的,統計的に効率的な学習が可能であることを実証した。
論文参考訳（メタデータ） (2024-10-01T22:16:22Z)
Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks [17.914928652949314]
階層型合意に基づくマルチエージェント強化学習(HC-MARL)フレームワークを導入し,その限界に対処する。 HC-MARLは、エージェント間のグローバルコンセンサスを促進するために対照的な学習を採用し、直接のコミュニケーションなしに協調行動を可能にする。様々なタスクの動的な要求を満たすために、コンセンサスを複数の層に分割し、短期的および長期的考慮を包含する。
論文参考訳（メタデータ） (2024-07-11T03:55:55Z)
Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。 3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文参考訳（メタデータ） (2024-03-08T06:38:22Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。