論文の概要: TransfQMix: Transformers for Leveraging the Graph Structure of
Multi-Agent Reinforcement Learning Problems
- arxiv url: http://arxiv.org/abs/2301.05334v1
- Date: Fri, 13 Jan 2023 00:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:15:44.528089
- Title: TransfQMix: Transformers for Leveraging the Graph Structure of
Multi-Agent Reinforcement Learning Problems
- Title(参考訳): TransfQMix:マルチエージェント強化学習問題のグラフ構造を利用した変換器
- Authors: Matteo Gallici, Mario Martin, Ivan Masmitja
- Abstract要約: TransfQMixは、トランスフォーマーを使用して潜在グラフ構造を活用し、より良いコーディネーションポリシーを学習する新しいアプローチである。
我々の変換器Q-mixerは、エージェントの内部状態と外部状態を含む大きなグラフから単調混合関数を学習する。
本稿では,TransfQMixのSpreadおよびStarCraft II環境における性能について報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Coordination is one of the most difficult aspects of multi-agent
reinforcement learning (MARL). One reason is that agents normally choose their
actions independently of one another. In order to see coordination strategies
emerging from the combination of independent policies, the recent research has
focused on the use of a centralized function (CF) that learns each agent's
contribution to the team reward. However, the structure in which the
environment is presented to the agents and to the CF is typically overlooked.
We have observed that the features used to describe the coordination problem
can be represented as vertex features of a latent graph structure. Here, we
present TransfQMix, a new approach that uses transformers to leverage this
latent structure and learn better coordination policies. Our transformer agents
perform a graph reasoning over the state of the observable entities. Our
transformer Q-mixer learns a monotonic mixing-function from a larger graph that
includes the internal and external states of the agents. TransfQMix is designed
to be entirely transferable, meaning that same parameters can be used to
control and train larger or smaller teams of agents. This enables to deploy
promising approaches to save training time and derive general policies in MARL,
such as transfer learning, zero-shot transfer, and curriculum learning. We
report TransfQMix's performances in the Spread and StarCraft II environments.
In both settings, it outperforms state-of-the-art Q-Learning models, and it
demonstrates effectiveness in solving problems that other methods can not
solve.
- Abstract(参考訳): コーディネーションはマルチエージェント強化学習(MARL)の最も難しい側面の1つである。
一つの理由は、通常エージェントが互いに独立して行動を選択するからである。
独立政策の組み合わせから協調戦略が生まれるのを見るため、最近の研究では、各エージェントのチーム報酬への貢献を学習する集中型機能(CF)の使用に焦点を当てている。
しかしながら、環境がエージェントやCFに提示される構造は通常見過ごされる。
コーディネーション問題を記述するために用いられる特徴を潜在グラフ構造の頂点特徴として表現できることを示した。
ここでは、TransfQMixという、トランスフォーマーを使って、この潜伏構造を活用し、より良いコーディネーションポリシーを学ぶ新しいアプローチを紹介する。
我々のトランスエージェントは、観測可能なエンティティの状態に関するグラフ推論を行います。
トランスq混合器は,エージェントの内部状態と外部状態を含むより大きなグラフから単調混合関数を学習する。
TransfQMixは完全に転送可能で、エージェントのより大きなチームや小さなチームのコントロールとトレーニングに同じパラメータを使用できる。
これにより、トレーニング時間を節約し、転送学習、ゼロショット転送、カリキュラム学習など、MARLの一般的なポリシーを導出する、有望なアプローチの展開が可能になる。
我々はtransfqmixのスプレッドとstarcraft ii環境でのパフォーマンスを報告する。
どちらの設定でも、最先端のQ-Learningモデルよりも優れており、他の方法では解けない問題を解く上での有効性を示す。
関連論文リスト
- MFC-EQ: Mean-Field Control with Envelope Q-Learning for Moving Decentralized Agents in Formation [1.770056709115081]
移動エージェント(英: moving Agents in Formation、MAiF)は、マルチエージェントパスファインディングの変種である。
MFC-EQは、この双方向マルチエージェント問題に対するスケーラブルで適応可能な学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-15T20:59:47Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。
大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。
最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文 参考訳(メタデータ) (2023-07-10T21:08:52Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - MA-Dreamer: Coordination and communication through shared imagination [5.253168177256072]
エージェント中心およびグローバルな環境の微分可能なモデルの両方を利用するモデルベース手法であるMA-Dreamerを提案する。
実験の結果,長期話者リスナータスクや強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerはコーディネートを効果的に活用する解を見出すことができた。
論文 参考訳(メタデータ) (2022-04-10T13:54:26Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文 参考訳(メタデータ) (2020-10-09T18:01:01Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。
まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。
第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文 参考訳(メタデータ) (2020-03-03T18:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。