論文の概要: Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations
- arxiv url: http://arxiv.org/abs/2012.13099v1
- Date: Thu, 24 Dec 2020 04:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 16:28:37.728084
- Title: Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations
- Title(参考訳): 事前学習された異種観測表現を用いた協調政策学習
- Authors: Wenlei Shi, Xinran Wei, Jia Zhang, Xiaoyuan Ni, Arthur Jiang, Jiang
Bian, Tie-Yan Liu
- Abstract要約: 事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
- 参考スコア(独自算出の注目度): 51.8796674904734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) has been increasingly explored to
learn the cooperative policy towards maximizing a certain global reward. Many
existing studies take advantage of graph neural networks (GNN) in MARL to
propagate critical collaborative information over the interaction graph, built
upon inter-connected agents. Nevertheless, the vanilla GNN approach yields
substantial defects in dealing with complex real-world scenarios since the
generic message passing mechanism is ineffective between heterogeneous vertices
and, moreover, simple message aggregation functions are incapable of accurately
modeling the combinational interactions from multiple neighbors. While adopting
complex GNN models with more informative message passing and aggregation
mechanisms can obviously benefit heterogeneous vertex representations and
cooperative policy learning, it could, on the other hand, increase the training
difficulty of MARL and demand more intense and direct reward signals compared
to the original global reward. To address these challenges, we propose a new
cooperative learning framework with pre-trained heterogeneous observation
representations. Particularly, we employ an encoder-decoder based graph
attention to learn the intricate interactions and heterogeneous representations
that can be more easily leveraged by MARL. Moreover, we design a pre-training
with local actor-critic algorithm to ease the difficulty in cooperative policy
learning. Extensive experiments over real-world scenarios demonstrate that our
new approach can significantly outperform existing MARL baselines as well as
operational research solutions that are widely-used in industry.
- Abstract(参考訳): 多エージェント強化学習(MARL)は、一定のグローバル報酬を最大化するための協調政策を学ぶために、ますます研究されている。
既存の多くの研究は、MARLのグラフニューラルネットワーク(GNN)を利用して、相互接続エージェント上に構築された相互作用グラフ上で重要な協調情報を伝達している。
しかしながら、バニラGNNアプローチは、一般的なメッセージパッシング機構が異質な頂点間で有効でなく、単純なメッセージアグリゲーション関数が複数の隣人からの組合せの相互作用を正確にモデル化できないため、複雑な実世界のシナリオを扱う上で重大な欠陥をもたらす。
より情報的なメッセージパッシングとアグリゲーション機構を備えた複雑なGNNモデルを採用することは、明らかに異種頂点表現と協調的政策学習の恩恵をもたらすが、一方で、MARLの訓練困難を増大させ、元のグローバル報酬と比較してより強く直接的な報酬信号を要求する可能性がある。
これらの課題に対処するために、あらかじめ訓練された異種観測表現を用いた新しい協調学習フレームワークを提案する。
特に、エンコーダ-デコーダに基づくグラフアテンションを用いて、MARLによりより容易に活用できる複雑な相互作用と異種表現を学習する。
さらに,協調政策学習の難しさを和らげるため,局所的アクター・クリティック・アルゴリズムを用いた事前学習をデザインする。
実世界のシナリオに対する大規模な実験は、我々の新しいアプローチが既存のMARLベースラインと、業界で広く使われている運用研究ソリューションを大きく上回っていることを示している。
関連論文リスト
- Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank [52.831993899183416]
相互作用ランクという構造的仮定を導入し、相互作用ランクの低い関数が一般的なものよりも分布シフトに対して著しく堅牢であることを示す。
我々は,非正規化と非正規化学習と組み合わせることで,オフラインMARLにおける分散的,計算的,統計的に効率的な学習が可能であることを実証した。
論文 参考訳(メタデータ) (2024-10-01T22:16:22Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - Scaling Large-Language-Model-based Multi-Agent Collaboration [75.5241464256688]
大規模言語モデルによるエージェントのパイオニア化は、マルチエージェントコラボレーションの設計パターンを暗示している。
神経スケーリング法則に触発された本研究では,マルチエージェント協調におけるエージェントの増加に類似の原理が適用されるかを検討する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Social Recommendation with Self-Supervised Metagraph Informax Network [21.41026069530997]
本稿では,ユーザの好み表現に社会的・知識に配慮した関係構造を組み込む可能性について検討する自己改善メタグラフInfor-max Network(SMIN)を提案する。
高次協調信号を注入するために、自己教師付きグラフベース協調フィルタリングの下で相互情報学習パラダイムを一般化する。
いくつかの実世界のデータセットに対する実験結果から,SMINモデルが様々な最先端レコメンデーション手法に対して有効であることを示す。
論文 参考訳(メタデータ) (2021-10-08T08:18:37Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。