論文の概要: Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL
- arxiv url: http://arxiv.org/abs/2209.09845v1
- Date: Tue, 20 Sep 2022 16:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:11:09.705325
- Title: Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL
- Title(参考訳): 集合変換器による関係推論:確率効率とMARLへの応用
- Authors: Fengzhuo Zhang, Boyi Liu, Kaixin Wang, Vincent Y. F. Tan, Zhuoran
Yang, Zhaoran Wang
- Abstract要約: 置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
- 参考スコア(独自算出の注目度): 154.13105285663656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cooperative Multi-A gent R einforcement Learning (MARL) with permutation
invariant agents framework has achieved tremendous empirical successes in
real-world applications. Unfortunately, the theoretical understanding of this
MARL problem is lacking due to the curse of many agents and the limited
exploration of the relational reasoning in existing works. In this paper, we
verify that the transformer implements complex relational reasoning, and we
propose and analyze model-free and model-based offline MARL algorithms with the
transformer approximators. We prove that the suboptimality gaps of the
model-free and model-based algorithms are independent of and logarithmic in the
number of agents respectively, which mitigates the curse of many agents. These
results are consequences of a novel generalization error bound of the
transformer and a novel analysis of the Maximum Likelihood Estimate (MLE) of
the system dynamics with the transformer. Our model-based algorithm is the
first provably efficient MARL algorithm that explicitly exploits the
permutation invariance of the agents.
- Abstract(参考訳): 置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな成功を収めている。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
本稿では,変換器が複雑な関係推論を実装していることを検証し,モデルフリーおよびモデルベースオフラインMARLアルゴリズムを変換器近似器を用いて提案・解析する。
モデルフリーアルゴリズムとモデルベースアルゴリズムの下位最適性ギャップは,それぞれエージェント数と対数から独立していることが証明され,多くのエージェントの呪いを緩和する。
これらの結果は、変圧器の新しい一般化誤差境界と、変圧器を用いたシステムダイナミクスの最大度推定(mle)の新しい解析の結果である。
我々のモデルベースアルゴリズムは、エージェントの置換不変性を明示的に活用する最初の証明可能なMARLアルゴリズムである。
関連論文リスト
- Partial Least Square Regression via Three-factor SVD-type Manifold
Optimization for EEG Decoding [4.0204191666595595]
双グラスマン多様体 (PLSRbiGr) の最適化による部分最小二乗回帰(PLSR)の解法を提案する。
qlPLSRbiGrは、運動画像(MI)における脳波信号を復号する様々な実験と、定常視覚誘発電位(SSVEP)タスクで検証される。
論文 参考訳(メタデータ) (2022-08-09T11:57:02Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - A Variational Inference Framework for Inverse Problems [1.2712661944741168]
変動ベイズ近似による逆問題モデル適合の枠組みを提案する。
この方法論は、幅広いアプリケーションに対する統計モデル仕様への柔軟性を保証する。
論文 参考訳(メタデータ) (2021-03-10T07:37:20Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Joint learning of variational representations and solvers for inverse
problems with partially-observed data [13.984814587222811]
本稿では,教師付き環境において,逆問題に対する実際の変分フレームワークを学習するためのエンドツーエンドフレームワークを設計する。
変動コストと勾配に基づく解法はどちらも、後者の自動微分を用いたニューラルネットワークとして記述される。
これにより、データ駆動による変分モデルの発見につながる。
論文 参考訳(メタデータ) (2020-06-05T19:53:34Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z) - Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning [63.64636047748605]
一般的なマルチステップMAMLアルゴリズムに対して収束保証を提供するための新しい理論フレームワークを開発する。
特に,本研究の結果は,収束を保証するためには,内部段階のステップを逆比例して$N$の内段ステップを選択する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T19:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。