論文の概要: API: Boosting Multi-Agent Reinforcement Learning via
Agent-Permutation-Invariant Networks
- arxiv url: http://arxiv.org/abs/2203.05285v1
- Date: Thu, 10 Mar 2022 11:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:38:22.605920
- Title: API: Boosting Multi-Agent Reinforcement Learning via
Agent-Permutation-Invariant Networks
- Title(参考訳): API:エージェント置換不変ネットワークによるマルチエージェント強化学習の促進
- Authors: Xiaotian Hao, Weixun Wang, Hangyu Mao, Yaodong Yang, Dong Li, Yan
Zheng, Zhen Wang, Jianye Hao
- Abstract要約: 多エージェント強化学習は、状態-作用空間の指数的な成長によりサンプル効率が低下する。
置換不変量(PI)を実現するための2つの新しい設計を提案する。
最初の設計は、同じが異なる順序の入力を同じ順序に戻し、下流ネットワークは、固定順序の入力よりも関数マッピングを学ぶ必要がある。
- 参考スコア(独自算出の注目度): 35.63476630248861
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-agent reinforcement learning suffers from poor sample efficiency due to
the exponential growth of the state-action space. Considering a homogeneous
multiagent system, a global state consisting of $m$ homogeneous components has
$m!$ differently ordered representations, thus designing functions satisfying
permutation invariant (PI) can reduce the state space by a factor of
$\frac{1}{m!}$. However, mainstream MARL algorithms ignore this property and
learn over the original state space. To achieve PI, previous works including
data augmentation based methods and embedding-sharing architecture based
methods, suffer from training instability and limited model capacity. In this
work, we propose two novel designs to achieve PI, while avoiding the above
limitations. The first design permutes the same but differently ordered inputs
back to the same order and the downstream networks only need to learn function
mapping over fixed-ordering inputs instead of all permutations, which is much
easier to train. The second design applies a hypernetwork to generate
customized embedding for each component, which has higher representational
capacity than the previous embedding-sharing method. Empirical results on the
SMAC benchmark show that the proposed method achieves 100% win-rates in almost
all hard and super-hard scenarios (never achieved before), and superior
sample-efficiency than the state-of-the-art baselines by up to 400%.
- Abstract(参考訳): 多エージェント強化学習は、状態-作用空間の指数的な成長によりサンプル効率が低下する。
均質なマルチエージェントシステムを考えると、$m$ 均質なコンポーネントからなるグローバル状態は$m!
つまり、置換不変量(pi)を満たす関数を設計することによって、状態空間を$\frac{1}{m!
}$.
しかし、主流のMARLアルゴリズムはこの特性を無視し、元の状態空間について学習する。
PIを実現するために、データ拡張ベースの手法や埋め込み共有アーキテクチャベースの手法を含む以前の研究は、トレーニング不安定性と限られたモデル能力に悩まされていた。
本研究では,これらの制約を回避しつつ,PIを実現するための2つの新しい設計を提案する。
最初の設計では、同じが異なる順序の入力を同じ順序に戻し、ダウンストリームネットワークは、全ての置換ではなく、固定順序の入力に対する関数マッピングを学習するだけで、訓練がより簡単になる。
第2の設計では、ハイパーネットワークを適用して各コンポーネントにカスタマイズされた埋め込みを生成し、これは以前の埋め込み共有方法よりも高い表現能力を持つ。
SMACベンチマークによる実験結果から, 提案手法は, ほぼすべてのハードシナリオおよび超硬度シナリオにおいて100%の勝率を達成し, 最先端のベースラインよりも400%も優れた試料効率を示した。
関連論文リスト
- Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - Cooperative Thresholded Lasso for Sparse Linear Bandit [6.52540785559241]
本稿では,マルチエージェント・スパース文脈線形帯域問題に対処する新しい手法を提案する。
疎線形帯域における行単位の分散データに対処する最初のアルゴリズムである。
後悔を最小限に抑えるために効率的な特徴抽出が重要となる高次元マルチエージェント問題に適用可能である。
論文 参考訳(メタデータ) (2023-05-30T16:05:44Z) - Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - Cluster and Aggregate: Face Recognition with Large Probe Set [18.662943303044315]
本稿では,2段階の機能融合パラダイムであるClusterとAggregateを提案する。
IJB-BおよびIJB-Sベンチマークデータセットの実験は、制約のない顔認識における提案された2段階パラダイムの優位性を示している。
論文 参考訳(メタデータ) (2022-10-19T20:01:15Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - A Fast Graph Neural Network-Based Method for Winner Determination in
Multi-Unit Combinatorial Auctions [44.14410999484577]
オークション(Auction, ACA)は、クラウドコンピューティングを含むさまざまな分野におけるリソース割り当ての効率的なメカニズムである。
競売人の収入を最大化するために入札者間でアイテムを割り当てることの問題は、NP完全で解決不可能である。
本稿では、機械学習(ML)技術を活用して、この問題を解決するための新たな低複雑さアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-29T00:22:37Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。