論文の概要: Hierarchical Strategies for Cooperative Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2212.07397v1
- Date: Wed, 14 Dec 2022 18:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 18:05:52.614179
- Title: Hierarchical Strategies for Cooperative Multi-Agent Reinforcement
Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための階層的戦略
- Authors: Majd Ibrahim, Ammar Fayad
- Abstract要約: 本稿では,新たな情報理論目標と軌道予測モデルを組み合わせた2段階階層アーキテクチャを提案する。
提案手法は,超硬度SCIIシナリオを解く最初のMARLアルゴリズムとして,我々の知る限り,この技術の新たな状態を確立するものであることを示す。
メソッドのビデオと簡単な概要は、https://sites.google.com/view/hier-strats-marl/home.comで公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adequate strategizing of agents behaviors is essential to solving cooperative
MARL problems. One intuitively beneficial yet uncommon method in this domain is
predicting agents future behaviors and planning accordingly. Leveraging this
point, we propose a two-level hierarchical architecture that combines a novel
information-theoretic objective with a trajectory prediction model to learn a
strategy. To this end, we introduce a latent policy that learns two types of
latent strategies: individual $z_A$, and relational $z_R$ using a modified
Graph Attention Network module to extract interaction features. We encourage
each agent to behave according to the strategy by conditioning its local $Q$
functions on $z_A$, and we further equip agents with a shared $Q$ function that
conditions on $z_R$. Additionally, we introduce two regularizers to allow
predicted trajectories to be accurate and rewarding. Empirical results on
Google Research Football (GRF) and StarCraft (SC) II micromanagement tasks show
that our method establishes a new state of the art being, to the best of our
knowledge, the first MARL algorithm to solve all super hard SC II scenarios as
well as the GRF full game with a win rate higher than $95\%$, thus
outperforming all existing methods. Videos and brief overview of the methods
and results are available at:
https://sites.google.com/view/hier-strats-marl/home.
- Abstract(参考訳): 協調的MARL問題の解決には,エージェント動作の適正な戦略化が不可欠である。
この領域において直観的に有益だが珍しい方法の1つは、エージェントの将来の振る舞いと計画を予測することである。
そこで我々は,新たな情報理論目標と軌道予測モデルを組み合わせた2段階階層型アーキテクチャを提案する。
この目的のために我々は,個々の$z_A$とリレーショナル$z_R$という2種類の潜在戦略を,グラフアテンションネットワークモジュールを用いて学習し,インタラクション機能を抽出する潜在ポリシーを導入する。
各エージェントは、そのローカル$q$関数を$z_a$で条件付けすることで、戦略に従って振る舞うことを推奨し、さらに$z_r$で条件づけされた共有$q$関数をエージェントに装備する。
さらに,予測軌道を正確かつ報奨できる2つの正則化器を導入する。
Google Research Football (GRF) および StarCraft (SC) II マイクロマネジメントタスクの実証的な結果から、我々の手法は、我々の知る限り、すべての超硬質SCIIシナリオを解く最初の MARL アルゴリズムであり、GRF フルゲームが 95 % 以上の勝利率で、既存のすべての手法よりも優れていたことが分かる。
メソッドと結果のビデオと簡単な概要は、https://sites.google.com/view/hier-strats-marl/home.comで公開されている。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。
提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
論文 参考訳(メタデータ) (2024-04-16T17:01:38Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Provably Efficient Offline Multi-agent Reinforcement Learning via
Strategy-wise Bonus [48.34563955829649]
本稿では,共同戦略の信頼区間を構築する戦略的な集中原理を提案する。
2人のプレイヤーによるゼロサムマルコフゲームの場合、戦略的なボーナスの凸性を利用して効率的なアルゴリズムを提案する。
すべてのアルゴリズムは、指定済みの戦略クラスである$Pi$を入力として取り、最良の戦略に近い戦略を$Pi$で出力することができる。
論文 参考訳(メタデータ) (2022-06-01T00:18:15Z) - Adaptive Multi-Goal Exploration [118.40427257364729]
我々は、AdaGoalが$epsilon$-optimal goal-conditioned policyを学習する目的を達成するためにどのように使えるかを示す。
AdaGoalは、ゴール条件の深い強化学習のための既存の手法の高レベルなアルゴリズム構造に固定されている。
論文 参考訳(メタデータ) (2021-11-23T17:59:50Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。