論文の概要: Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments
- arxiv url: http://arxiv.org/abs/2109.02032v1
- Date: Sun, 5 Sep 2021 09:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:49:13.218811
- Title: Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments
- Title(参考訳): 多元的部分観測環境のためのソフト階層グラフリカレントネットワーク
- Authors: Zhenhui Ye, Xiaohong Jiang, Guanghua Song, Bowei Yang
- Abstract要約: 本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
- 参考スコア(独自算出の注目度): 9.067091068256747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent progress in multi-agent deep reinforcement learning(MADRL) makes
it more practical in real-world tasks, but its relatively poor scalability and
the partially observable constraints raise challenges to its performance and
deployment. Based on our intuitive observation that the human society could be
regarded as a large-scale partially observable environment, where each
individual has the function of communicating with neighbors and remembering its
own experience, we propose a novel network structure called hierarchical graph
recurrent network(HGRN) for multi-agent cooperation under partial
observability. Specifically, we construct the multi-agent system as a graph,
use the hierarchical graph attention network(HGAT) to achieve communication
between neighboring agents, and exploit GRU to enable agents to record
historical information. To encourage exploration and improve robustness, we
design a maximum-entropy learning method to learn stochastic policies of a
configurable target action entropy. Based on the above technologies, we
proposed a value-based MADRL algorithm called Soft-HGRN and its actor-critic
variant named SAC-HRGN. Experimental results based on three homogeneous tasks
and one heterogeneous environment not only show that our approach achieves
clear improvements compared with four baselines, but also demonstrates the
interpretability, scalability, and transferability of the proposed model.
Ablation studies prove the function and necessity of each component.
- Abstract(参考訳): マルチエージェントディープ強化学習(MADRL)の最近の進歩により、現実のタスクではより実用的になるが、スケーラビリティが比較的低く、部分的に観察可能な制約がパフォーマンスとデプロイメントに課題をもたらす。
人間の社会は、近隣の人とコミュニケーションし、自身の経験を記憶する機能を持つ大規模な部分観測可能な環境とみなすことができるという直感的な観察に基づいて、部分観測性の下でのマルチエージェント協調のための階層グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
具体的には,マルチエージェントシステムをグラフとして構築し,階層型グラフアテンションネットワーク(hgat)を用いて隣接エージェント間の通信を実現し,エージェントが履歴情報を記録できるようにする。
探索を奨励し、ロバスト性を向上させるために、設定可能なターゲットアクションエントロピーの確率的ポリシーを学習するための最大エントロピー学習法を設計する。
以上の技術に基づいて、Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと、SAC-HRGNというアクタクリティカルな変種を提案する。
3つの均質なタスクと1つの異質な環境に基づく実験結果から,提案手法が4つのベースラインと比較して明らかに改善されるだけでなく,提案モデルの解釈性,拡張性,転送性も示された。
アブレーション研究は各成分の機能と必要性を証明する。
関連論文リスト
- Reinforcement Learning Discovers Efficient Decentralized Graph Path Search Strategies [4.77487125476894]
グラフパス探索は、強化学習で最近アプローチされた古典的なコンピュータサイエンス問題である。
グラフパス探索のためのマルチエージェント手法を提案し, 相同性と構造的不均一性の両方をうまく活用する。
この結果から,グラフナビゲーションのための意味のある埋め込みを報酬駆動学習を用いて構築できることが示唆された。
論文 参考訳(メタデータ) (2024-09-12T10:56:38Z) - Unsupervised Graph Attention Autoencoder for Attributed Networks using
K-means Loss [0.0]
我々は、属性付きネットワークにおけるコミュニティ検出のための、教師なしのtextbfGraph Attention textbfAutotextbfEncoder に基づく、シンプルで効率的なクラスタリング指向モデルを提案する。
提案モデルは,ネットワークのトポロジと属性情報の両方から表現を十分に学習し,同時に2つの目的,すなわち再構築とコミュニティ発見に対処する。
論文 参考訳(メタデータ) (2023-11-21T20:45:55Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - Affinity-Aware Graph Networks [9.888383815189176]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを学ぶための強力なテクニックとして登場した。
グラフニューラルネットワークの特徴としてアフィニティ尺度の利用について検討する。
本稿では,これらの特徴に基づくメッセージパッシングネットワークを提案し,その性能を様々なノードおよびグラフ特性予測タスクで評価する。
論文 参考訳(メタデータ) (2022-06-23T18:51:35Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - Consistency-Aware Graph Network for Human Interaction Understanding [17.416289346143948]
本稿では,グラフネットワークの代表的な能力と,HIUタスクの促進を目的とした一貫性を考慮した推論を組み合わせた,一貫性を考慮したグラフネットワークを提案する。
我々のネットワークは,画像の特徴を抽出するバックボーンCNN,参加者間の3階対話関係を学習する因子グラフネットワーク,ラベリングとグループ化を強制する一貫性を考慮した推論モジュールの3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-11-20T07:49:21Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Policy-GNN: Aggregation Optimization for Graph Neural Networks [60.50932472042379]
グラフニューラルネットワーク(GNN)は、局所的なグラフ構造をモデル化し、隣人からの情報を集約することで階層的なパターンを捉えることを目的としている。
複雑なグラフとスパースな特徴を与えられた各ノードに対して効果的なアグリゲーション戦略を開発することは難しい課題である。
本稿では,GNNのサンプリング手順とメッセージパッシングを複合学習プロセスにモデル化するメタ政治フレームワークであるPolicy-GNNを提案する。
論文 参考訳(メタデータ) (2020-06-26T17:03:06Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z) - Graph Representation Learning via Graphical Mutual Information
Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。
我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文 参考訳(メタデータ) (2020-02-04T08:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。